<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>小眼睛看大世界 &#187; 数据分析</title>
	<atom:link href="http://www.melonlab.com/tag/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.melonlab.com</link>
	<description>IT、数据、产品、营销</description>
	<lastBuildDate>Fri, 20 Jan 2012 08:27:12 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>数据盈余的价值</title>
		<link>http://www.melonlab.com/data-margin-value/</link>
		<comments>http://www.melonlab.com/data-margin-value/#comments</comments>
		<pubDate>Thu, 08 Dec 2011 03:28:01 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[头脑风暴]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[数据咀嚼]]></category>
		<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[数据盈余]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/?p=714</guid>
		<description><![CDATA[云计算必然是大数据量下的计算，必然会对及时性严格要求，必然会产生数据盈余。首先，数据先要信手拈来，而后，尽快可视化以求金蝉脱壳。这时，数据盈余就会出现，让这些盈余增值给云吧。 <a href="http://www.melonlab.com/data-margin-value/">继续阅读 <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p>云计算以各种方式充斥在我们耳旁。确实，将存储或计算分布式部署在云端的产品与服务也在不经意间逐渐深入生活。智能手机、平板、PC、MAC、NAS间数据的相互共享，让效率极大的提升的同时，沉溺在云端（无论是个人私云还是公共云）的数据也在迅速爆炸。这些数据在产品改进或运营中发挥极大的作用，并且随着数据的丰富，数据挖掘手段和效率的提升，在完成产品或运营改进之余，产生大量的数据盈余，这些盈余往往有极大的价值。<span id="more-714"></span></p>
<p>很明显的例子是早期的淘宝数据魔方，依托淘宝洋量的数据，在完成产品改进或运营提升的效用同时，产生了大量有价值的数据盈余。这些数据暂时还没有成为产品，但依稀可见的潜在价值变成了今天的TOP。同样的例子，在新浪微博中亦可寻端倪。</p>
<p>数据让产品可以量化，而数据盈余可以帮助人们找到产品新的利基。听上去很不错的东西，但实际操作上有很多掣肘因素：</p>
<p>1.数据贪心心理的压迫：团队对于数据的渴望，大于了目前所能承载的能量，因此数据人员为满足需求而无暇进一步对数据架构、机制和表现进行演进，继而无从谈起数据盈余；</p>
<p>2.可视化不足：数据终归是数据，距离让人进行决策的知识还存在着距离。报表抑或千篇一律的图表，能帮助多少人读懂数据？有多少次将数据提供给同事，他们会向你确认其中的意义？没有蠢人，只有不够好的产品，数据本身当然也是产品。通过可视化，让数据更接近于知识，帮人更是更己；</p>
<p>3.架构的腐败：夏虫不可语冰，老虎也不会爬树。一个不合适的架构会让后期的数据缓慢（其他产品亦如是），故障若干，但改架构是痛并折腾的。即使起初的架构因各种原因成为既成现实后，也要更改，南辕北辙，亡羊补牢，犹未晚矣。</p>
<p>云计算必然是大数据量下的计算，必然会对及时性严格要求，必然会产生数据盈余。首先，数据先要信手拈来，而后，尽快可视化以求金蝉脱壳。这时，数据盈余就会出现，让这些盈余增值给云吧。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/data-margin-value/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>浅见数据分析</title>
		<link>http://www.melonlab.com/data-analyze-ideas/</link>
		<comments>http://www.melonlab.com/data-analyze-ideas/#comments</comments>
		<pubDate>Fri, 10 Jul 2009 09:16:33 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[知识管理]]></category>
		<category><![CDATA[决策]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[营销]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/?p=314</guid>
		<description><![CDATA[我们生活在数据所驱动的世界之中，要掌握这个世界，就要懂得利用如何进行数据分析。用数据来揭示本质，找出问题，提出解决问题的方案，执行之后再通过数据来反映解决程度。互联网的时代，对于利用数据、分析数据更是不容置疑的重要。因为，我们离数据是如此之近，而数据改善我们体验的故事也是如此之多。 <a href="http://www.melonlab.com/data-analyze-ideas/">继续阅读 <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p><img class="alignnone size-full wp-image-318" title="data" src="http://www.melonlab.com/wp-content/uploads/2009/07/data.jpg" alt="data" width="500" height="375" /></p>
<p>我们生活在数据所驱动的世界之中，要掌握这个世界，就要懂得利用如何进行数据分析。用数据来揭示本质，找出问题，提出解决问题的方案，执行之后再通过数据来反映解决程度。互联网的时代，对于利用数据、分析数据更是不容置疑的重要。因为，我们离数据是如此之近，而数据改善我们体验的故事也是如此之多。</p>
<p>窃以为，数据分析有三种层面的理解：第一层，定期对已有数据的<strong>整理、分析及汇报。</strong>这是数据分析的最初应用。旨在通过频数等描述统计，用直观的报表或图形来“微言大义”的反应问题。如本月的女用户是增加用户中的比例，是总体用户的比例，这个比例达到一定情况下，说明了什么问题等等，这样通过已有数据来直观说明问题。不难理解，这样的数据处理方式与其是说数据分析，不如说是在做数据汇报。其目的性很明显，同时操作难度也不大，虽然简单，但是可以作为企业定量衡量绩效的重要方式。因为流程的可复制与程序化，大抵上可以采用一些软件来提高效率，当然，自行编写程序也是很好的选择之一。<span id="more-314"></span></p>
<p>第二层，<strong>基于目的性的分析研究</strong>。企业生存的核心是账面上的数字，但往往谈论的是产品和服务应该怎样被客户所接受这样的问题。因此，将企业所关注与讨论的问题定量化，模型化，而后去主动的搜索信息，基于模型整理、分析之后，揭示这些企业关心的问题。如服务的同质性、可替代性、主观问题如满意度的客观解释等。这些数据用描述统计所得到的结果往往是有偏、不一致的。需要通过数理统计的处理，应用<strong>适用的模型去测度</strong>。最终，告诉决策者，我们的产品与服务中诸如可替代性、满意度等问题的答案是什么。这一层面上，相较于第一层的“数据整理与汇报”而言，最大的改变是去测度，而非简单通过频数来描述。</p>
<p>第三层，<strong>无明确目的的问题解决性分析</strong>。前述的方式，无论是分析汇报数据的描述统计，还是基于对某一关心问题的测度研究，都是基于在决策层认为信息不足以决策之时，为了补足信息而做出的研究。而无明显目的的问题，则是决策层希望解决问题，但却不能确认究竟是哪些数据在影响问题，如何分析数据才能找到答案的情况下，用一个整体、且又模糊的目的来指导数据分析。比如，如何才能增加用户、如何将非积极用户转化为积极用户、怎样使得用户认可商业模式等等。要解决这类问题，首先要做的就是量化问题，将不明确的问题，用可以测度的变量来支撑。例如网站粘性不高问题的解决，可以转化为：定义积极用户、定义非积极用户的、此二者的差异、二者差异之于其他网络服务是否具有同样的差异等等可以通过第二层的数据分析测度的变量，用这些变量来支撑网站粘性不高问题，如何解决这样一个很难直接测度的问题。显而易见，找到可以<strong>测度的支撑变量</strong>，并且用这些变量支撑，是有足够可信度来发现问题的。这其中应用到的与其说是统计分析工具，不如说是统计思想。</p>
<p>对于数据分析，我认为没有任意一种工具与模型是可以通用的，因此每个问题都要通过统计思想与经验去甄别、选择合适的分析工具。更为重要的是，统计工具没有时髦与否，只有<strong>适用</strong>之分。要利用统计思想去探求事物的本源，而不是形而上的统计工具应用。</p>
<p>最后需要声明一点，上述的三层仅仅是为了说明问题，在实际应用中不宜将数据分析主观割裂开来。<br />
感谢阅读！一家之言，止曾笑尔。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/data-analyze-ideas/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>绚丽的数字世界，曼妙的统计思想</title>
		<link>http://www.melonlab.com/beatuiful-digital-world-and-fantastic-statistics/</link>
		<comments>http://www.melonlab.com/beatuiful-digital-world-and-fantastic-statistics/#comments</comments>
		<pubDate>Mon, 21 Jul 2008 07:28:24 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[头脑风暴]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[统计学]]></category>
		<category><![CDATA[统计思想]]></category>
		<category><![CDATA[量化]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/beatuiful-digital-world-and-fantastic-statistics/</guid>
		<description><![CDATA[前日在餐馆等待时，无意间与朋友聊起这家餐馆的收益情况，经过一番粗略计算，如此迷你的小餐馆，将受益量化后的数字，着实令我们诧异。 昨天早晨在路边的早点铺中，我在猜测，这家店的日流入与前日的餐馆相比如何，在好奇心策动下，我问了店长一下，得到的答案更是令我吃惊。 这样的小餐馆，早点铺的收入为何会与我们的预期差如此之远。原来，这些只是因为我们平时看到的世界全然为一种具象，而鲜有将其抽象化、数据化，于是乎，这些数字就离我们渐行渐远，甚至完全被传统固有观念所取代！ 但是，如果能将生活中的点滴数量化，我们会发现这个“陌生”的世界，是多么的美丽。各种各样的新知，新想法也都会出现。这种把现实量化，进而分析、预测，并作为决策依据的思想，就是统计学思想。 世界运转在数字之上，而统计乃是其车轮。 借助统计学思想，这个强大无比的工具，我们的生活将极大的改变，世界也将变得绚烂多彩。机会也会随之而来，越来越多。 有很多人不停的问，数据从哪里来，用什么来挖掘，挖掘有什么用，统计不就是记录个数字，再求个和之类的么。窃以为，不要再问，而是去做，去体会。世界上的一切都可以量化，通过量化之后，来分析预测，寻找隐藏在数据背后的因素。C.R.Rao在他那本集统计学思想于大成的书《统计与真理》中，甚至用侦探的例子来显示统计的无所不在。 就如同上述最简单的餐饮，如果能将客人数、菜单上每个菜被点的频率、哪个座位最受客人青睐、上菜等待时间等等数据化，那么影响客人多寡的因素，菜品的改良，店内布局的提升，厨师及服务态度的改善等等这些关系到餐馆（我不太懂餐饮，只是凭直觉说）是否良性营业的元素，是否突然间大白于天下呢？ 再如我们生活中必不可少的理财来说，就蕴含着统计的智慧，消费、生活之余的资金，怎么管理，购买金融产品？储蓄？投资？还是其他？似乎每一项都有道理，但是每一项都蕴含着风险或者是消耗一定的机会成本。运用统计冰山之一角，以最简单的线性组合，用标准差来亮度风险，用均值来预测收益，用历史数据来获取前述之资料……仅此而已，又有何难？ 管理者们，通常说：“我们靠的是事实与直觉，事实不足时，靠直觉。”因此，早就直觉的经验成为了最大的砝码。而我觉得，在运用直觉之前，不妨用统计的思想来思考那些事实不足之事，用统计的武器来量度这些不确定性之事。那么，对于管理者而言，是否会相对更准确呢？ 统计蕴含着世界的客观规律，要找到这规律，就请先将你的世界量化。当然，前提是你想征服你自己的世界，而不是被世界所驾驭。]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">前日在餐馆等待时，无意间与朋友聊起这家餐馆的收益情况，经过一番粗略计算，如此迷你的小餐馆，将受益量化后的数字，着实令我们诧异。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">昨天早晨在路边的早点铺中，我在猜测，这家店的日流入与前日的餐馆相比如何，在好奇心策动下，我问了店长一下，得到的答案更是令我吃惊。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">这样的小餐馆，早点铺的收入为何会与我们的预期差如此之远。原来，这些只是因为我们平时看到的世界全然为一种具象，而鲜有将其抽象化、数据化，于是乎，这些数字就离我们渐行渐远，甚至完全被传统固有观念所取代！</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">但是，如果能将生活中的点滴数量化，我们会发现这个“陌生”的世界，是多么的美丽。各种各样的新知，新想法也都会出现。这种把现实量化，进而<strong>分析、预测，并作为决策依据</strong>的思想，就是统计学思想。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><em><span style="font-family: 宋体">世界运转在数字之上，而统计乃是其车轮。</span><span lang="EN-US"><o:p></o:p></span></em></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">借助统计学思想，这个强大无比的工具，我们的生活将极大的改变，世界也将变得绚烂多彩。机会也会随之而来，越来越多。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">有很多人不停的问，数据从哪里来，用什么来挖掘，挖掘有什么用，统计不就是记录个数字，再求个和之类的么。窃以为，不要再问，而是去做，去体会。世界上的一切都可以量化，通过量化之后，来分析预测，寻找隐藏在数据背后的因素。</span><span lang="EN-US">C.R.Rao</span><span style="font-family: 宋体">在他那本集统计学思想于大成的书《统计与真理》中，甚至用侦探的例子来显示统计的无所不在。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">就如同上述最简单的餐饮，如果能将客人数、菜单上每个菜被点的频率、哪个座位最受客人青睐、上菜等待时间等等数据化，那么影响客人多寡的因素，菜品的改良，店内布局的提升，厨师及服务态度的改善等等这些关系到餐馆（我不太懂餐饮，只是凭直觉说）是否良性营业的元素，是否突然间大白于天下呢？</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">再如我们生活中必不可少的理财来说，就蕴含着统计的智慧，消费、生活之余的资金，怎么管理，购买金融产品？储蓄？投资？还是其他？似乎每一项都有道理，但是每一项都蕴含着风险或者是消耗一定的机会成本。运用统计冰山之一角，以最简单的线性组合，用标准差来亮度风险，用均值来预测收益，用历史数据来获取前述之资料……仅此而已，又有何难？</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">管理者们，通常说：“我们靠的是事实与直觉，事实不足时，靠直觉。”因此，早就直觉的经验成为了最大的砝码。而我觉得，在运用直觉之前，不妨用统计的思想来思考那些事实不足之事，用统计的武器来量度这些不确定性之事。那么，对于管理者而言，是否会相对更准确呢？</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">统计蕴含着世界的客观规律，要找到这规律，就请先将你的世界量化。当然，前提是你想征服你自己的世界，而不是被世界所驾驭。</span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/beatuiful-digital-world-and-fantastic-statistics/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>数据秘籍（二）——非结构化数据的整理</title>
		<link>http://www.melonlab.com/data-scheme2/</link>
		<comments>http://www.melonlab.com/data-scheme2/#comments</comments>
		<pubDate>Wed, 16 Jul 2008 07:50:29 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[头脑风暴]]></category>
		<category><![CDATA[知识管理]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[数据搜集]]></category>
		<category><![CDATA[非结构化数据]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/data-scheme2/</guid>
		<description><![CDATA[前接数据秘籍（一） 上次探讨到如何获取结构化数据，现在我们来一起研究下非结构化数据的整合。 什么是非结构化数据？ 像自然语言一样，没有固定的结构的数据。比如论坛的帖子，个人的介绍等等。 通常的处理方法是？ 这些内容在任何一个网站中，都会或多或少涉及到，而通常的方法是将其分门别类的，如帖子内容为一类、个人介绍为一类来写入数据库。在应用时，再利用信息熵与一些统计学知识来进行利用。因此，这类数据在大多数情况下是通过用户主动贡献而获取的。 换个角度想 就像结构化数据获取一样，用户慷慨奉献是因为在贡献的本身，对其自己有一定的益处。非结构化数据在满足用户某些需求后（比如发帖评论等），若能再进一步，用一些简单的统计伎俩来发展的话，用户会更加倾向来奉献非结构化数据。应用哪些伎俩呢？ 1.非结构数据的价值量：可以通过计算机标准化计算，作为一个测度。让用户快速得到反馈，比如发布一个帖子，其信息价值两通过信息熵得到一个评分。 2.与结构化数据相结合：对非结构化数据添加其他用户的打分或其他量化指标，让前述的“人工智能”变成“工人智能”。 这样操作的效果： 任何一个服务，都不能回避非结构化数据，而对于非结构化数据的应用在未来互联网的发展，更是起着巨大的作用。因此，只有获取到更多，或者说让用户无私奉献更多这样的信息，才能发挥数据的魔力，为用户更好的改善体验。 结合结构化与非结构化数据，举一个例子来应用： 比如要做一个威客，每个项目的投标门槛非常低，只要注册就可以。这就让项目的发布商难以选择。然而如果该威客若能依托一个维基系统，每个注册用户在该维基系统上的贡献程度（非结构化数据）、其他人的评分（结构化）、贡献的频率与类别（结构化）等信息能够从一定角度上反映出用户在某些方面的精通程度。依此来帮助项目投放者选择投标者。与此同时维基系统的内容必然也会极大的丰富。可谓两全其美。 数据搜集之后，准确的是说有目的搜集之后，如何改善用户之体验，并获得经济效益呢？下周的文章中，会有一些探讨。]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><a href="http://www.melonlab.com/data-scheme-1collection" target="_blank"><em><span style="font-family: 宋体">前接数据秘籍（一）</span></em></a><span lang="EN-US"></span><span style="font-family: 宋体"></span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">上次探讨到如何获取结构化数据，现在我们来一起研究下非结构化数据的整合。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><em><span style="font-family: 宋体">什么是非结构化数据？</span></em></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">像自然语言一样，没有固定的结构的数据。比如论坛的帖子，个人的介绍等等。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><em><span style="font-family: 宋体">通常的处理方法是？</span></em></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">这些内容在任何一个网站中，都会或多或少涉及到，而通常的方法是将其分门别类的，如帖子内容为一类、个人介绍为一类来写入数据库。在应用时，再利用信息熵与一些统计学知识来进行利用。因此，这类数据在大多数情况下是通过用户主动贡献而获取的。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><em><span style="font-family: 宋体">换个角度想</span></em></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">就像结构化数据获取一样，用户慷慨奉献是因为在贡献的本身，对其自己有一定的益处。非结构化数据在满足用户某些需求后（比如发帖评论等），若能再进一步，用一些简单的统计伎俩来发展的话，用户会更加倾向来奉献非结构化数据。应用哪些伎俩呢？</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span lang="EN-US">1.</span><span style="font-family: 宋体">非结构数据的价值量：可以通过计算机标准化计算，作为一个测度。让用户快速得到反馈，比如发布一个帖子，其信息价值两通过信息熵得到一个评分。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span lang="EN-US">2.</span><span style="font-family: 宋体">与结构化数据相结合：对非结构化数据添加其他用户的打分或其他量化指标，让前述的“人工智能”变成“工人智能”。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><em><span style="font-family: 宋体">这样操作的效果：</span></em></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">任何一个服务，都不能回避非结构化数据，而对于非结构化数据的应用在未来互联网的发展，更是起着巨大的作用。因此，只有获取到更多，或者说让用户无私奉献更多这样的信息，才能发挥数据的魔力，为用户更好的改善体验。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><em><span style="font-family: 宋体">结合结构化与非结构化数据，举一个例子来应用：</span></em></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">比如要做一个威客，每个项目的投标门槛非常低，只要注册就可以。这就让项目的发布商难以选择。然而如果该威客若能依托一个维基系统，每个注册用户在该维基系统上的贡献程度（非结构化数据）、其他人的评分（结构化）、贡献的频率与类别（结构化）等信息能够从一定角度上反映出用户在某些方面的精通程度。依此来帮助项目投放者选择投标者。与此同时维基系统的内容必然也会极大的丰富。可谓两全其美。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">数据搜集之后，准确的是说有目的搜集之后，如何改善用户之体验，并获得经济效益呢？下周的文章中，会有一些探讨。</span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/data-scheme2/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>数据秘籍（一）</title>
		<link>http://www.melonlab.com/data-scheme-1collection/</link>
		<comments>http://www.melonlab.com/data-scheme-1collection/#comments</comments>
		<pubDate>Wed, 09 Jul 2008 07:30:20 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[头脑风暴]]></category>
		<category><![CDATA[知识管理]]></category>
		<category><![CDATA[web2.0]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[数据咀嚼]]></category>
		<category><![CDATA[数据应用]]></category>
		<category><![CDATA[数据挖掘]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/data-scheme-1collection/</guid>
		<description><![CDATA[世界在数据车轮上运转向前，一切行业都不能逃脱出万一。然而，我们该如何获取期望中的数据呢？下面，我抛砖引玉的写出一点我的看法： 1.结构化数据： 何谓结构化数据？就是可以放入数据库表单中的数据。比如一个人的信息，有生日、职业、住址、收入等等，这些属性都被结构化，各个变量也被声明。这样的数据放入数据库中，每次查询非常方便。那么，如何获取这类型的准确数据呢？我认为有两种比较可行的方法： 第一，用实用的信息来交换数据：为用户提供某些服务，而用户不必为此付任何的费用，而仅仅是填写一个表单，以此作为交换。这样，用户不会因为觉得自己信息是无偿奉献而填写一些虚假信息或者拒绝提供。当然，保证隐私安全是其根本。（获取信息后的使用方法，将在以后跟大家探讨。） 第二，利用信息黏性，分批逐次的获取结构化信息：就如同买洗发水时要先告诉服务人员自己发质一样。用户每次获取信息的同时，必然也会透露一部分信息。这种流程，窃妄言之为信息黏性，是由一个信息黏合另外一个相关信息，诚如前面说的“买洗发水”信息，黏合“个人发质”以及“预算”信息。 这两种方式如何在互联网上应用呢？我以为，不妨将信息搜集从注册过程向整个过程转变。即每个用户的信息非但在注册时，也可在使用过程中不断完善与更新。将这个过程拆散，可以使改善用户体验。如，在web2.0站点中，注册时仅用提供邮箱和注册密码（甚至连重复密码都可以省去，找回密码直接发至邮箱。如需避免恶意注册，可以验证，不过2.0时代，谁不希望用户多多呢？）。在用户使用过程中，如果希望给某人发信息或者点评某人的分享时，需要给自己起一个昵称，此时的昵称在确定后，写入数据库。希望搜索跟自己志趣相投之人，那么就要写出自己的兴趣。就像这样，把整个流程延长，利用信息的黏性和实用的信息来不断的促使用户奉献我们期望的数据，而这些数据则被结构化的写入数据库，供未来的数据分析之用。   （下周三写数据获取中的非结构化数据，有感兴趣的朋友不妨留意）]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">世界在数据车轮上运转向前，一切行业都不能逃脱出万一。然而，我们该如何获取期望中的数据呢？下面，我抛砖引玉的写出一点我的看法：</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span lang="EN-US">1.</span><span style="font-family: 宋体">结构化数据：</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">何谓结构化数据？就是可以放入数据库表单中的数据。比如一个人的信息，有生日、职业、住址、收入等等，这些属性都被结构化，各个变量也被声明。这样的数据放入数据库中，每次查询非常方便。那么，如何获取这类型的准确数据呢？我认为有两种比较可行的方法：</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">第一，用实用的信息来交换数据：为用户提供某些服务，而用户不必为此付任何的费用，而仅仅是填写一个表单，以此作为交换。这样，用户不会因为觉得自己信息是无偿奉献而填写一些虚假信息或者拒绝提供。当然，保证隐私安全是其根本。（获取信息后的使用方法，将在以后跟大家探讨。）</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">第二，利用信息黏性，分批逐次的获取结构化信息：就如同买洗发水时要先告诉服务人员自己发质一样。用户每次获取信息的同时，必然也会透露一部分信息。这种流程，窃妄言之为信息黏性，是由一个信息黏合另外一个相关信息，诚如前面说的“买洗发水”信息，黏合“个人发质”以及“预算”信息。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">这两种方式如何在互联网上应用呢？我以为，不妨将信息搜集从注册过程向整个过程转变。即每个用户的信息非但在注册时，也可在使用过程中不断完善与更新。将这个过程拆散，可以使改善用户体验。如，在</span><span lang="EN-US">web2.0</span><span style="font-family: 宋体">站点中，注册时仅用提供邮箱和注册密码（甚至连重复密码都可以省去，找回密码直接发至邮箱。如需避免恶意注册，可以验证，不过</span><span lang="EN-US">2.0</span><span style="font-family: 宋体">时代，谁不希望用户多多呢？）。在用户使用过程中，如果希望给某人发信息或者点评某人的分享时，需要给自己起一个昵称，此时的昵称在确定后，写入数据库。希望搜索跟自己志趣相投之人，那么就要写出自己的兴趣。就像这样，把整个流程延长，利用信息的黏性和实用的信息来不断的促使用户奉献我们期望的数据，而这些数据则被结构化的写入数据库，供未来的数据分析之用。</span></p>
<p class="MsoNormal"><span lang="EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><em><span style="font-family: 宋体">（下周三写数据获取中的非结构化数据，有感兴趣的朋友不妨留意）</span></em></p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/data-scheme-1collection/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

