<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>小眼睛看大世界 &#187; search engine</title>
	<atom:link href="http://www.melonlab.com/tag/search-engine/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.melonlab.com</link>
	<description>IT、数据、产品、营销</description>
	<lastBuildDate>Fri, 20 Jan 2012 08:27:12 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>从人肉搜索到搜索人肉</title>
		<link>http://www.melonlab.com/from-human-search-to-search-human/</link>
		<comments>http://www.melonlab.com/from-human-search-to-search-human/#comments</comments>
		<pubDate>Tue, 01 Apr 2008 08:59:49 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[创意melon]]></category>
		<category><![CDATA[头脑风暴]]></category>
		<category><![CDATA[网络观察]]></category>
		<category><![CDATA[search engine]]></category>
		<category><![CDATA[信息熵]]></category>
		<category><![CDATA[搜人]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[数据咀嚼]]></category>
		<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[数理统计]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/from-human-search-to-search-human/</guid>
		<description><![CDATA[今天一早惊闻谷歌推出人肉搜索引擎，于是便立刻尝试搜索。结果，呵呵，竟然是Google的愚人节恶作剧。不愧是Google，恶作剧的很有创意。恶作剧归恶作剧，谷歌还不忘宣传一下它的合作伙伴——天涯问答。 天涯问答是什么？能做什么？简单的说，与新浪爱问，百度知道，雅虎知识堂基本类似。新意无多。那么，我们不禁要问，曾放弃自己知识搜索的谷歌为何会与天涯合作，重新来开拓这个市场？仅仅是为了本地市场，以对抗百度？ 或许是，然而我认为更主要的原因是，谷歌希冀能用天涯庞大的忠诚用户群，来尝试所谓的人肉搜索+知识搜索。进一步达到“搜人”的境界。如果说web1.0时代，信息的搜索是其极致；那么在2.0时代，巅峰就是搜人。 随着互联网上的主角从不可计数的信息，向每个平常的网民来转移。“搜人”的呼声也越来越高。但是，人毕竟不是冷冰冰的数据与信息，很难进行结构化，更不要言及数据挖掘了。然而，难归难，不是不可能。有需求就一定会有知识能够满足。我认为，人虽然不能简单的用数据来定义，但是可以根据人在互联网上留下的信息，并选取一个“样本(Sample)”来进行分析。就像一张照片、一段视频、一首音乐可以用很多人的智慧来打上标签（tags）一样。人在互联网上留下的信息，可以同理地反映人的属性，进而被索引，进一步可以达到搜索的目的。 但是，这其中也存在问题，每个人在互联网上留下的信息有多有少，关注的方向亦不尽相同。怎么办？这就要依靠数理统计的知识，合理的选择一个能够充分代表这个人信息的样本（sample）。同时还要考虑小样本下如何解决，样本中的信息如何量化估计等问题。在这里，我不引出任何的数学证明，只是简单的将思想表于下： 首先，让反映个人信息的样本选取成为一个动态的过程，结合贝叶斯估计与信息熵（information entropy)之理论，对其反映的情况（variance等统计量）进行评估。而后，将所有的人进行综合处理，标准化，提炼出一个“标准值”。以便最终横向评估搜索质量。最后，告诉被分析的每个人他的情况，每个人都有成就感，这种成就感会让他们在其关注的方面不断的自我更新，同时在互联网上留下这方面的信息。使得每个“人”自行帮助整个系统来良性运转。记住，搜人的目标是让我们整体的智慧更高，而不是为了把人分成三六九等。 回到天涯与谷歌的合作。毋庸置疑，天涯的洋量原创信息，其中最为重要的是每个用户的信息（发布的帖子，天涯问答的回答等），对于谷歌而言是一个廉价的数据库。经过严密的计算，对每个用户的信息进行抽样，所得之样本，根据信息熵等理论，反映用户在某方面的能力。进而可以达到按某种需求搜人的目的。（比如，搜索历史爱好者或者知道曹操八卦的人，就会搜出留下大量历史文字，甚至是设计曹操的人）。 当然，上述只不过是我的大胆假设，不当之处，敬请海涵，欢迎讨论。谢谢！]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">今天一早惊闻谷歌推出<a href="http://www.google.cn/intl/zh-CN/renrou/index.html" target="_blank">人肉搜索引擎</a></span><a href="http://www.google.cn/intl/zh-CN/renrou/index.html" target="_blank"><span lang="EN-US"></span></a><span style="font-family: 宋体">，于是便立刻尝试搜索。结果，呵呵，竟然是</span><span lang="EN-US">Google</span><span style="font-family: 宋体">的愚人节恶作剧。不愧是</span><span lang="EN-US">Google</span><span style="font-family: 宋体">，恶作剧的很有创意。恶作剧归恶作剧，谷歌还不忘宣传一下它的合作伙伴——天涯问答。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">天涯问答是什么？能做什么？简单的说，与<a href="http://iask.sina.com.cn" target="_blank">新浪爱问</a>，<a href="http://zhidao.baidu.com">百度知道</a>，<a href="http://ks.cn.yahoo.com">雅虎知识堂</a>基本类似。新意无多。那么，我们不禁要问，曾放弃自己知识搜索的谷歌为何会与天涯合作，重新来开拓这个市场？仅仅是为了本地市场，以对抗百度？</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">或许是，然而我认为更主要的原因是，谷歌希冀能用天涯庞大的忠诚用户群，来尝试所谓的人肉搜索</span><span lang="EN-US">+</span><span style="font-family: 宋体">知识搜索。进一步达到“搜人”的境界。如果说</span><span lang="EN-US">web1.0</span><span style="font-family: 宋体">时代，信息的搜索是其极致；那么在</span><span lang="EN-US">2.0</span><span style="font-family: 宋体">时代，巅峰就是搜人。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">随着互联网上的主角从不可计数的信息，向每个平常的网民来转移。“搜人”的呼声也越来越高。但是，人毕竟不是冷冰冰的数据与信息，很难进行结构化，更不要言及数据挖掘了。然而，难归难，不是不可能。有需求就一定会有知识能够满足。我认为，人虽然不能简单的用数据来定义，但是可以根据人在互联网上留下的信息，并选取一个“样本</span><span lang="EN-US">(Sample)</span><span style="font-family: 宋体">”来进行分析。就像一张照片、一段视频、一首音乐可以用很多人的智慧来打上标签（</span><span lang="EN-US">tags</span><span style="font-family: 宋体">）一样。人在互联网上留下的信息，可以同理地反映人的属性，进而被索引，进一步可以达到搜索的目的。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">但是，这其中也存在问题，每个人在互联网上留下的信息有多有少，关注的方向亦不尽相同。怎么办？这就要依靠<strong>数理统计</strong>的知识，合理的选择一个能够充分代表这个人信息的<strong>样本</strong>（</span><span lang="EN-US">sample</span><span style="font-family: 宋体">）。同时还要考虑小样本下如何解决，样本中的信息如何量化估计等问题。在这里，我不引出任何的数学证明，只是简单的将思想表于下：</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">首先，让反映个人信息的样本选取成为一个动态的过程，结合<strong>贝叶斯估计</strong>与<strong>信息熵（information entropy)</strong>之理论，对其反映的情况（</span><span lang="EN-US">variance</span><span style="font-family: 宋体">等统计量）进行评估。而后，将所有的人进行综合处理，标准化，提炼出一个“标准值”。以便最终横向评估搜索质量。最后，告诉被分析的每个人他的情况，每个人都有成就感，这种成就感会让他们在其关注的方面不断的自我更新，同时在互联网上留下这方面的信息。使得每个“人”自行帮助整个系统来良性运转。记住，搜人的目标是让我们<strong>整体的智慧更高</strong>，而不是为了把人分成三六九等。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">回到天涯与谷歌的合作。毋庸置疑，天涯的洋量原创信息，其中最为重要的是每个用户的信息（发布的帖子，天涯问答的回答等），对于谷歌而言是一个廉价的数据库。经过严密的计算，对每个用户的信息进行抽样，所得之样本，根据信息熵等理论，反映用户在某方面的能力。进而可以达到按某种需求搜人的目的。（比如，搜索历史爱好者或者知道曹操八卦的人，就会搜出留下大量历史文字，甚至是设计曹操的人）。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">当然，上述只不过是我的大胆假设，不当之处，敬请海涵，欢迎讨论。谢谢！</span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/from-human-search-to-search-human/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

