今天一早惊闻谷歌推出人肉搜索引擎,于是便立刻尝试搜索。结果,呵呵,竟然是Google的愚人节恶作剧。不愧是Google,恶作剧的很有创意。恶作剧归恶作剧,谷歌还不忘宣传一下它的合作伙伴——天涯问答。

天涯问答是什么?能做什么?简单的说,与新浪爱问百度知道雅虎知识堂基本类似。新意无多。那么,我们不禁要问,曾放弃自己知识搜索的谷歌为何会与天涯合作,重新来开拓这个市场?仅仅是为了本地市场,以对抗百度?

或许是,然而我认为更主要的原因是,谷歌希冀能用天涯庞大的忠诚用户群,来尝试所谓的人肉搜索+知识搜索。进一步达到“搜人”的境界。如果说web1.0时代,信息的搜索是其极致;那么在2.0时代,巅峰就是搜人。

随着互联网上的主角从不可计数的信息,向每个平常的网民来转移。“搜人”的呼声也越来越高。但是,人毕竟不是冷冰冰的数据与信息,很难进行结构化,更不要言及数据挖掘了。然而,难归难,不是不可能。有需求就一定会有知识能够满足。我认为,人虽然不能简单的用数据来定义,但是可以根据人在互联网上留下的信息,并选取一个“样本(Sample)”来进行分析。就像一张照片、一段视频、一首音乐可以用很多人的智慧来打上标签(tags)一样。人在互联网上留下的信息,可以同理地反映人的属性,进而被索引,进一步可以达到搜索的目的。

但是,这其中也存在问题,每个人在互联网上留下的信息有多有少,关注的方向亦不尽相同。怎么办?这就要依靠数理统计的知识,合理的选择一个能够充分代表这个人信息的样本sample)。同时还要考虑小样本下如何解决,样本中的信息如何量化估计等问题。在这里,我不引出任何的数学证明,只是简单的将思想表于下:

首先,让反映个人信息的样本选取成为一个动态的过程,结合贝叶斯估计信息熵(information entropy)之理论,对其反映的情况(variance等统计量)进行评估。而后,将所有的人进行综合处理,标准化,提炼出一个“标准值”。以便最终横向评估搜索质量。最后,告诉被分析的每个人他的情况,每个人都有成就感,这种成就感会让他们在其关注的方面不断的自我更新,同时在互联网上留下这方面的信息。使得每个“人”自行帮助整个系统来良性运转。记住,搜人的目标是让我们整体的智慧更高,而不是为了把人分成三六九等。

回到天涯与谷歌的合作。毋庸置疑,天涯的洋量原创信息,其中最为重要的是每个用户的信息(发布的帖子,天涯问答的回答等),对于谷歌而言是一个廉价的数据库。经过严密的计算,对每个用户的信息进行抽样,所得之样本,根据信息熵等理论,反映用户在某方面的能力。进而可以达到按某种需求搜人的目的。(比如,搜索历史爱好者或者知道曹操八卦的人,就会搜出留下大量历史文字,甚至是设计曹操的人)。

当然,上述只不过是我的大胆假设,不当之处,敬请海涵,欢迎讨论。谢谢!