上次探讨到如何获取结构化数据,现在我们来一起研究下非结构化数据的整合。
什么是非结构化数据?
像自然语言一样,没有固定的结构的数据。比如论坛的帖子,个人的介绍等等。
通常的处理方法是?
这些内容在任何一个网站中,都会或多或少涉及到,而通常的方法是将其分门别类的,如帖子内容为一类、个人介绍为一类来写入数据库。在应用时,再利用信息熵与一些统计学知识来进行利用。因此,这类数据在大多数情况下是通过用户主动贡献而获取的。
换个角度想
就像结构化数据获取一样,用户慷慨奉献是因为在贡献的本身,对其自己有一定的益处。非结构化数据在满足用户某些需求后(比如发帖评论等),若能再进一步,用一些简单的统计伎俩来发展的话,用户会更加倾向来奉献非结构化数据。应用哪些伎俩呢?
1.非结构数据的价值量:可以通过计算机标准化计算,作为一个测度。让用户快速得到反馈,比如发布一个帖子,其信息价值两通过信息熵得到一个评分。
2.与结构化数据相结合:对非结构化数据添加其他用户的打分或其他量化指标,让前述的“人工智能”变成“工人智能”。
这样操作的效果:
任何一个服务,都不能回避非结构化数据,而对于非结构化数据的应用在未来互联网的发展,更是起着巨大的作用。因此,只有获取到更多,或者说让用户无私奉献更多这样的信息,才能发挥数据的魔力,为用户更好的改善体验。
结合结构化与非结构化数据,举一个例子来应用:
比如要做一个威客,每个项目的投标门槛非常低,只要注册就可以。这就让项目的发布商难以选择。然而如果该威客若能依托一个维基系统,每个注册用户在该维基系统上的贡献程度(非结构化数据)、其他人的评分(结构化)、贡献的频率与类别(结构化)等信息能够从一定角度上反映出用户在某些方面的精通程度。依此来帮助项目投放者选择投标者。与此同时维基系统的内容必然也会极大的丰富。可谓两全其美。
数据搜集之后,准确的是说有目的搜集之后,如何改善用户之体验,并获得经济效益呢?下周的文章中,会有一些探讨。