<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>小眼睛看大世界 &#187; 数据</title>
	<atom:link href="http://www.melonlab.com/tag/%e6%95%b0%e6%8d%ae/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.melonlab.com</link>
	<description>IT、数据、产品、营销</description>
	<lastBuildDate>Fri, 20 Jan 2012 08:27:12 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>数据盈余的价值</title>
		<link>http://www.melonlab.com/data-margin-value/</link>
		<comments>http://www.melonlab.com/data-margin-value/#comments</comments>
		<pubDate>Thu, 08 Dec 2011 03:28:01 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[头脑风暴]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[数据咀嚼]]></category>
		<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[数据盈余]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/?p=714</guid>
		<description><![CDATA[云计算必然是大数据量下的计算，必然会对及时性严格要求，必然会产生数据盈余。首先，数据先要信手拈来，而后，尽快可视化以求金蝉脱壳。这时，数据盈余就会出现，让这些盈余增值给云吧。 <a href="http://www.melonlab.com/data-margin-value/">继续阅读 <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p>云计算以各种方式充斥在我们耳旁。确实，将存储或计算分布式部署在云端的产品与服务也在不经意间逐渐深入生活。智能手机、平板、PC、MAC、NAS间数据的相互共享，让效率极大的提升的同时，沉溺在云端（无论是个人私云还是公共云）的数据也在迅速爆炸。这些数据在产品改进或运营中发挥极大的作用，并且随着数据的丰富，数据挖掘手段和效率的提升，在完成产品或运营改进之余，产生大量的数据盈余，这些盈余往往有极大的价值。<span id="more-714"></span></p>
<p>很明显的例子是早期的淘宝数据魔方，依托淘宝洋量的数据，在完成产品改进或运营提升的效用同时，产生了大量有价值的数据盈余。这些数据暂时还没有成为产品，但依稀可见的潜在价值变成了今天的TOP。同样的例子，在新浪微博中亦可寻端倪。</p>
<p>数据让产品可以量化，而数据盈余可以帮助人们找到产品新的利基。听上去很不错的东西，但实际操作上有很多掣肘因素：</p>
<p>1.数据贪心心理的压迫：团队对于数据的渴望，大于了目前所能承载的能量，因此数据人员为满足需求而无暇进一步对数据架构、机制和表现进行演进，继而无从谈起数据盈余；</p>
<p>2.可视化不足：数据终归是数据，距离让人进行决策的知识还存在着距离。报表抑或千篇一律的图表，能帮助多少人读懂数据？有多少次将数据提供给同事，他们会向你确认其中的意义？没有蠢人，只有不够好的产品，数据本身当然也是产品。通过可视化，让数据更接近于知识，帮人更是更己；</p>
<p>3.架构的腐败：夏虫不可语冰，老虎也不会爬树。一个不合适的架构会让后期的数据缓慢（其他产品亦如是），故障若干，但改架构是痛并折腾的。即使起初的架构因各种原因成为既成现实后，也要更改，南辕北辙，亡羊补牢，犹未晚矣。</p>
<p>云计算必然是大数据量下的计算，必然会对及时性严格要求，必然会产生数据盈余。首先，数据先要信手拈来，而后，尽快可视化以求金蝉脱壳。这时，数据盈余就会出现，让这些盈余增值给云吧。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/data-margin-value/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>数据驱动型团队建设</title>
		<link>http://www.melonlab.com/data-driving-team-building/</link>
		<comments>http://www.melonlab.com/data-driving-team-building/#comments</comments>
		<pubDate>Thu, 08 Sep 2011 15:36:23 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[未分类]]></category>
		<category><![CDATA[团队建设]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[数据驱动]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/?p=703</guid>
		<description><![CDATA[数据驱动的团队，是个多么有吸引力的名词。然而，说说总是比做到困难的多，在前往数据驱动的道路上，最可怕的不是数据及时性不足，亦非数据的分辨率过低，而是被表面上数量化掩盖住了数据建设的长期规划。 <a href="http://www.melonlab.com/data-driving-team-building/">继续阅读 <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p><img class="alignnone size-full wp-image-707" title="20110908233518" src="http://www.melonlab.com/wp-content/uploads/2011/09/20110908233518.jpg" alt="20110908233518" width="633" height="394" /></p>
<p>数据驱动的团队，是个多么有吸引力的名词。然而，说说总是比做到困难的多，在前往数据驱动的道路上，最可怕的不是数据及时性不足，亦非数据的分辨率过低，而是被表面上数量化掩盖住了数据建设的长期规划。</p>
<p>这种情况比比皆是，当通过数据测度，将若干关注的指标能够通过数据精确的表达出来之后，所谓的数据驱动假象就开始逐渐扩散，越来越多天马行空的需求不断提出。“既然已经有了数据和专门做数据的人，那么一切数据的获取成本都可以接受”的思想开始蔓延。久而久之，一种不考虑成本情况下希望快速获得目标数据，而不是考虑最终结论/推断的“数据贪心”心理将会对数据驱动型团队建设毁灭性的打击。即便满足了所有的数据需求，那也仅仅是通过满足需求而将问题所掩盖，长期来看，数据工作就像是订外卖一样，按照需求来下单。然而，成为营养师，才应该是数据驱动的目标。</p>
<p><span id="more-703"></span></p>
<p>个人看来，提供数据，仅是数据驱动型团队建设过程中的一个结果，远远不是目的。一个成熟、良好、高效的数据驱动型团队的数据建设，宜从如下三个层面深入发展：</p>
<p>1. 数据测度化：也就是有数据，让目标指标测度化，用数据进行量度，并将数据存入数据库，供任何时刻的应用，同时将尽可能多的维度加入其中，经过ETL，以实现理论上的多维度查询和无限度的钻取或切片。有了数据，团队所面临的最紧迫问题也有了答案。（当然，不要忽视数据的检验这一最关键的工作环节）而后，基于团队的规模，对数据进行适当的积累，让数据足以反映现状。对于数据的测度化，这些就足矣。如果在测度化上投入精力过多，比如把理论下的Cube OLAP实时查询，实现最高分辨率的了解数据当作一个目标，那么必然会将有限的资源投入到其中，使得无从进行更为重要的数据探索，进而对N维的数据无从做起维规约，极大降低数据获取和分析效率，让绝大部分精力集中在效果有限的高分辨率的具体数据查询上。届时，数据建设就真成了可悲的外卖，你点什么送什么。虽然能够果腹，但长远来看，却牺牲了数据建设。</p>
<p>2.数据探索及可视化：数据探索是指了解测度化的数据（存储于数据库中的数据）。与不断接受需求来实现了解数据不同的是，数据探索注重的是“聚合”，而非“细化”；而数据需求多为零散而细节的要求，两者恰恰相反。后者虽然能了解到数据的细节，但往往会因分辨率太高，而忽视了整体。</p>
<p>在数据探索中，首先宜用一些描述统计对可测测度的数据进行了解，如求和、均值、方差、众数、各级分位数等等。我们通过求和知道了数据规模，通过均值了解平均水平，通过方差认识到波动水平，通过各级分位数明确了数据的大体分布情况，峰度和偏度则佐证了这个变量的正态性如何。通过这样的“聚合”，数据已经变得心中有数。</p>
<p>其次，在充分了解了数据整体情况后，要对数据中众多的维度进行规约。一种崇拜多维度下交叉分析的情况在数据分析过程中越发明显，多维度分析当然没错，但是教条的多维度分析则是错误的做法。高相关性（无论正、负）的维度变量，应该尽早通过线性组合来实现降维，及早的降维会让日后的工作事半功倍。</p>
<p>最后，在了解了数据总体情况，并将数据的维度减少之后，对全新的数据就要开始可视化的操作了&#8212;-将我们已经熟悉的数据通过图形化变现出来，图形是锁在人类内心深处的基础技能，因此，可视化能让数据的阅读门槛大大降低，并提高监控效率。我们的不断努力，就是要将辛苦得来的数据让人无障碍的阅读。复杂的报表，会让人阅读起来无比头痛，进一步致使数据工作人员要不断的进行解读。出于数据工作的整体战略和资源（往往是稀缺的）考虑，为了进一步专题的分析数据和数据挖掘，数据统计结果越能自助处理越好。可视化数据要重点体现的成果是：矩阵散点图来表述不同维度间变量（指标）的分布；柱状图来表达某一个变量（指标）的积累分布情况……</p>
<p>数据驱动型团队需要取舍，就像一切的工作一样。多维度、高分辨率的实时查询诚然有用，但并非在建立数据驱动型团队初期的目标。通过上述三个方面的努力，在数据饥渴的团队中，可以最大程度的满足需求，并不妨碍整个数据战略——去实现数据驱动，用数据来评估运营、市场、产品、人力资源。因此，完成了数据驱动型团队的第一步之后，接下来要用不同的主题分析来对前述情况进行支持。</p>
<p>最后，用一个例子来结束这篇博文：当航船找到一块新的陆地（旨在数据驱动的团队），尽管了解这块土地的一切（数据驱动）是终极目标，但在生存的压力（资源有限）下，首先要登陆（测度数据），并了解这块土地上的大致地貌地形（探索并聚合），其次，对这块土地进行探索，对这块按照特点陆地分区（降维），进一步绘出地图（可视化），让所有的船员都能“按图索骥”去生存下来。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/data-driving-team-building/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>数据王道：从移动互联网到微应用</title>
		<link>http://www.melonlab.com/data-mining-mobile-net-and-micro-apps/</link>
		<comments>http://www.melonlab.com/data-mining-mobile-net-and-micro-apps/#comments</comments>
		<pubDate>Mon, 08 Mar 2010 03:11:53 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[头脑风暴]]></category>
		<category><![CDATA[微博客]]></category>
		<category><![CDATA[微应用]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[移动互联网]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/?p=553</guid>
		<description><![CDATA[移动互联网越来越为人所重视，因为，人们需要一个在渠道去满足已经习惯于信息轰炸的心理。而以微博客为代表的微应用，正是利用这个契机，通过移动互联网，基于智能手机或上网本这样的轻量级终端，实现人们在随时随地，自由的与信息接触。 <a href="http://www.melonlab.com/data-mining-mobile-net-and-micro-apps/">继续阅读 <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p><img class="alignnone" src="http://farm4.static.flickr.com/3502/3183278318_224761735f.jpg" alt="" width="500" height="343" /></p>
<p>互联网的发展，让人们所接受的信息几何级的增长。在信息泛滥的时代里，大多数人都已经习惯了在信息的冲击中生活。然而，离开了桌面终端，从一个信息充分，甚至到信息泛滥的情况，突然之间，转换到一个信息相对缺失的局面。人们开始变得有些抓狂，于是乎，移动互联网越来越为人所重视，因为，人们需要一个在渠道去满足已经习惯于信息轰炸的心理。而以微博客为代表的微应用，正是利用这个契机，通过移动互联网，基于智能手机或上网本这样的轻量级终端，实现人们在随时随地，自由的与信息接触。</p>
<p>然而，限于移动终端目前计算能力的有限，以及带宽情况的不足。微应用更多的是作为桌面应用的一个补充，或者是本身该应用就非常简单。如上文所述之微博客，即通过移动终端来对完成基本的收发信息，检索信息的功能。但是，作用却远远不止于此。在移动中会产生大量有用的数据。诚如在中国和美国搜索同一关键词的结果不同，本地化、个性化的使用体验是每一个用户所乐见的，而这些微应用恰恰可以基于移动终端，为实时本地化搜集数据，以改善使用体验。当然，隐私问题会是一个非常敏感的话题。但是今天的重点在于讨论数据应用，而隐私问题一定会由人们的智慧所解决。</p>
<p>那么，数据的应用还可以体现在哪些方面呢，下面，我将提出几个看法，与大家探讨：</p>
<p><span id="more-553"></span></p>
<p>1.有利可图下的数据推送：网龄稍长的朋友都会记得，下载一个插件，上网时挂着他，据说能得到美刀。在那时还是用小猫上网，按时收费的年代，还是有不少人尝试。而今天，移动互联网的速度显然已经超过了当年的小猫，价格也已经相当低廉，用户们更有兴致地为了某些利益去牺牲自己的一些体验，比如某厂商的LOGO拼图，拼好后能得到积分，而后可以兑换。而用户选择拼哪一个图，类似于这样的数据，可以作为信息推送的重要依据。有用的信息时财富，无用的信息是垃圾。让用户获利的同时，他们还会告诉我们他们认为的财富是什么。那么很好，将财富推送给他们。</p>
<p>2.信息同步器：或许很多的朋友都有这样的感觉，一个应用新出来，或许会很喜欢，但是日子一久，用的应用还是那么几个，而真正持久使用的，却还是传统单纯浏览的新闻页面。简单即为刺激，如果一个应用能简单到我打开浏览器就能出现我所喜好的资讯，那么这无疑是很棒的事情。移动互联网利用其轻量级的应用，恰好可以作为信息同步的利器。将用户的各种使用习惯，在完成各种应用的同时同步到云端，进行分析后，用户可以在浏览器上看到自已的感兴趣的信息。如手机闹钟几点的信息，一天通话时间长度的信息等同步到云端之后，当用户打开浏览器，得到的是无需用户做任何参数输入，便能够了解到自己的睡眠情况或工作压力程度。当然，如果是电邮或者插件的形式，也是很好的模式。抛砖引玉，同类的应用还很多很多，因为应用的习惯，往往能够映射出一个人的很多信息。</p>
<p>数据，驾驭着这个世界。移动互联网的普及，微应用的大量出现，让本来更多是少交互，多无明确方向推送的模式，发生了巨大的改变。推送，不会消失，而会随着数据的同步，让其目的性更明显，更具有价值；而同步，则会使信息更好的流动，为用户提供更佳的体验。移动互联网的前景将无比光明，但是，就目前而言，通过微应用，作为数据推送和同步的工具，才是王道！</p>
<p>一家之言，止增笑耳</p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/data-mining-mobile-net-and-micro-apps/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>浅见数据分析</title>
		<link>http://www.melonlab.com/data-analyze-ideas/</link>
		<comments>http://www.melonlab.com/data-analyze-ideas/#comments</comments>
		<pubDate>Fri, 10 Jul 2009 09:16:33 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[知识管理]]></category>
		<category><![CDATA[决策]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[营销]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/?p=314</guid>
		<description><![CDATA[我们生活在数据所驱动的世界之中，要掌握这个世界，就要懂得利用如何进行数据分析。用数据来揭示本质，找出问题，提出解决问题的方案，执行之后再通过数据来反映解决程度。互联网的时代，对于利用数据、分析数据更是不容置疑的重要。因为，我们离数据是如此之近，而数据改善我们体验的故事也是如此之多。 <a href="http://www.melonlab.com/data-analyze-ideas/">继续阅读 <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p><img class="alignnone size-full wp-image-318" title="data" src="http://www.melonlab.com/wp-content/uploads/2009/07/data.jpg" alt="data" width="500" height="375" /></p>
<p>我们生活在数据所驱动的世界之中，要掌握这个世界，就要懂得利用如何进行数据分析。用数据来揭示本质，找出问题，提出解决问题的方案，执行之后再通过数据来反映解决程度。互联网的时代，对于利用数据、分析数据更是不容置疑的重要。因为，我们离数据是如此之近，而数据改善我们体验的故事也是如此之多。</p>
<p>窃以为，数据分析有三种层面的理解：第一层，定期对已有数据的<strong>整理、分析及汇报。</strong>这是数据分析的最初应用。旨在通过频数等描述统计，用直观的报表或图形来“微言大义”的反应问题。如本月的女用户是增加用户中的比例，是总体用户的比例，这个比例达到一定情况下，说明了什么问题等等，这样通过已有数据来直观说明问题。不难理解，这样的数据处理方式与其是说数据分析，不如说是在做数据汇报。其目的性很明显，同时操作难度也不大，虽然简单，但是可以作为企业定量衡量绩效的重要方式。因为流程的可复制与程序化，大抵上可以采用一些软件来提高效率，当然，自行编写程序也是很好的选择之一。<span id="more-314"></span></p>
<p>第二层，<strong>基于目的性的分析研究</strong>。企业生存的核心是账面上的数字，但往往谈论的是产品和服务应该怎样被客户所接受这样的问题。因此，将企业所关注与讨论的问题定量化，模型化，而后去主动的搜索信息，基于模型整理、分析之后，揭示这些企业关心的问题。如服务的同质性、可替代性、主观问题如满意度的客观解释等。这些数据用描述统计所得到的结果往往是有偏、不一致的。需要通过数理统计的处理，应用<strong>适用的模型去测度</strong>。最终，告诉决策者，我们的产品与服务中诸如可替代性、满意度等问题的答案是什么。这一层面上，相较于第一层的“数据整理与汇报”而言，最大的改变是去测度，而非简单通过频数来描述。</p>
<p>第三层，<strong>无明确目的的问题解决性分析</strong>。前述的方式，无论是分析汇报数据的描述统计，还是基于对某一关心问题的测度研究，都是基于在决策层认为信息不足以决策之时，为了补足信息而做出的研究。而无明显目的的问题，则是决策层希望解决问题，但却不能确认究竟是哪些数据在影响问题，如何分析数据才能找到答案的情况下，用一个整体、且又模糊的目的来指导数据分析。比如，如何才能增加用户、如何将非积极用户转化为积极用户、怎样使得用户认可商业模式等等。要解决这类问题，首先要做的就是量化问题，将不明确的问题，用可以测度的变量来支撑。例如网站粘性不高问题的解决，可以转化为：定义积极用户、定义非积极用户的、此二者的差异、二者差异之于其他网络服务是否具有同样的差异等等可以通过第二层的数据分析测度的变量，用这些变量来支撑网站粘性不高问题，如何解决这样一个很难直接测度的问题。显而易见，找到可以<strong>测度的支撑变量</strong>，并且用这些变量支撑，是有足够可信度来发现问题的。这其中应用到的与其说是统计分析工具，不如说是统计思想。</p>
<p>对于数据分析，我认为没有任意一种工具与模型是可以通用的，因此每个问题都要通过统计思想与经验去甄别、选择合适的分析工具。更为重要的是，统计工具没有时髦与否，只有<strong>适用</strong>之分。要利用统计思想去探求事物的本源，而不是形而上的统计工具应用。</p>
<p>最后需要声明一点，上述的三层仅仅是为了说明问题，在实际应用中不宜将数据分析主观割裂开来。<br />
感谢阅读！一家之言，止曾笑尔。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/data-analyze-ideas/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>绚丽的数字世界，曼妙的统计思想</title>
		<link>http://www.melonlab.com/beatuiful-digital-world-and-fantastic-statistics/</link>
		<comments>http://www.melonlab.com/beatuiful-digital-world-and-fantastic-statistics/#comments</comments>
		<pubDate>Mon, 21 Jul 2008 07:28:24 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[头脑风暴]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[统计学]]></category>
		<category><![CDATA[统计思想]]></category>
		<category><![CDATA[量化]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/beatuiful-digital-world-and-fantastic-statistics/</guid>
		<description><![CDATA[前日在餐馆等待时，无意间与朋友聊起这家餐馆的收益情况，经过一番粗略计算，如此迷你的小餐馆，将受益量化后的数字，着实令我们诧异。 昨天早晨在路边的早点铺中，我在猜测，这家店的日流入与前日的餐馆相比如何，在好奇心策动下，我问了店长一下，得到的答案更是令我吃惊。 这样的小餐馆，早点铺的收入为何会与我们的预期差如此之远。原来，这些只是因为我们平时看到的世界全然为一种具象，而鲜有将其抽象化、数据化，于是乎，这些数字就离我们渐行渐远，甚至完全被传统固有观念所取代！ 但是，如果能将生活中的点滴数量化，我们会发现这个“陌生”的世界，是多么的美丽。各种各样的新知，新想法也都会出现。这种把现实量化，进而分析、预测，并作为决策依据的思想，就是统计学思想。 世界运转在数字之上，而统计乃是其车轮。 借助统计学思想，这个强大无比的工具，我们的生活将极大的改变，世界也将变得绚烂多彩。机会也会随之而来，越来越多。 有很多人不停的问，数据从哪里来，用什么来挖掘，挖掘有什么用，统计不就是记录个数字，再求个和之类的么。窃以为，不要再问，而是去做，去体会。世界上的一切都可以量化，通过量化之后，来分析预测，寻找隐藏在数据背后的因素。C.R.Rao在他那本集统计学思想于大成的书《统计与真理》中，甚至用侦探的例子来显示统计的无所不在。 就如同上述最简单的餐饮，如果能将客人数、菜单上每个菜被点的频率、哪个座位最受客人青睐、上菜等待时间等等数据化，那么影响客人多寡的因素，菜品的改良，店内布局的提升，厨师及服务态度的改善等等这些关系到餐馆（我不太懂餐饮，只是凭直觉说）是否良性营业的元素，是否突然间大白于天下呢？ 再如我们生活中必不可少的理财来说，就蕴含着统计的智慧，消费、生活之余的资金，怎么管理，购买金融产品？储蓄？投资？还是其他？似乎每一项都有道理，但是每一项都蕴含着风险或者是消耗一定的机会成本。运用统计冰山之一角，以最简单的线性组合，用标准差来亮度风险，用均值来预测收益，用历史数据来获取前述之资料……仅此而已，又有何难？ 管理者们，通常说：“我们靠的是事实与直觉，事实不足时，靠直觉。”因此，早就直觉的经验成为了最大的砝码。而我觉得，在运用直觉之前，不妨用统计的思想来思考那些事实不足之事，用统计的武器来量度这些不确定性之事。那么，对于管理者而言，是否会相对更准确呢？ 统计蕴含着世界的客观规律，要找到这规律，就请先将你的世界量化。当然，前提是你想征服你自己的世界，而不是被世界所驾驭。]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">前日在餐馆等待时，无意间与朋友聊起这家餐馆的收益情况，经过一番粗略计算，如此迷你的小餐馆，将受益量化后的数字，着实令我们诧异。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">昨天早晨在路边的早点铺中，我在猜测，这家店的日流入与前日的餐馆相比如何，在好奇心策动下，我问了店长一下，得到的答案更是令我吃惊。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">这样的小餐馆，早点铺的收入为何会与我们的预期差如此之远。原来，这些只是因为我们平时看到的世界全然为一种具象，而鲜有将其抽象化、数据化，于是乎，这些数字就离我们渐行渐远，甚至完全被传统固有观念所取代！</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">但是，如果能将生活中的点滴数量化，我们会发现这个“陌生”的世界，是多么的美丽。各种各样的新知，新想法也都会出现。这种把现实量化，进而<strong>分析、预测，并作为决策依据</strong>的思想，就是统计学思想。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><em><span style="font-family: 宋体">世界运转在数字之上，而统计乃是其车轮。</span><span lang="EN-US"><o:p></o:p></span></em></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">借助统计学思想，这个强大无比的工具，我们的生活将极大的改变，世界也将变得绚烂多彩。机会也会随之而来，越来越多。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">有很多人不停的问，数据从哪里来，用什么来挖掘，挖掘有什么用，统计不就是记录个数字，再求个和之类的么。窃以为，不要再问，而是去做，去体会。世界上的一切都可以量化，通过量化之后，来分析预测，寻找隐藏在数据背后的因素。</span><span lang="EN-US">C.R.Rao</span><span style="font-family: 宋体">在他那本集统计学思想于大成的书《统计与真理》中，甚至用侦探的例子来显示统计的无所不在。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">就如同上述最简单的餐饮，如果能将客人数、菜单上每个菜被点的频率、哪个座位最受客人青睐、上菜等待时间等等数据化，那么影响客人多寡的因素，菜品的改良，店内布局的提升，厨师及服务态度的改善等等这些关系到餐馆（我不太懂餐饮，只是凭直觉说）是否良性营业的元素，是否突然间大白于天下呢？</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">再如我们生活中必不可少的理财来说，就蕴含着统计的智慧，消费、生活之余的资金，怎么管理，购买金融产品？储蓄？投资？还是其他？似乎每一项都有道理，但是每一项都蕴含着风险或者是消耗一定的机会成本。运用统计冰山之一角，以最简单的线性组合，用标准差来亮度风险，用均值来预测收益，用历史数据来获取前述之资料……仅此而已，又有何难？</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">管理者们，通常说：“我们靠的是事实与直觉，事实不足时，靠直觉。”因此，早就直觉的经验成为了最大的砝码。而我觉得，在运用直觉之前，不妨用统计的思想来思考那些事实不足之事，用统计的武器来量度这些不确定性之事。那么，对于管理者而言，是否会相对更准确呢？</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">统计蕴含着世界的客观规律，要找到这规律，就请先将你的世界量化。当然，前提是你想征服你自己的世界，而不是被世界所驾驭。</span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/beatuiful-digital-world-and-fantastic-statistics/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>数据秘籍（一）</title>
		<link>http://www.melonlab.com/data-scheme-1collection/</link>
		<comments>http://www.melonlab.com/data-scheme-1collection/#comments</comments>
		<pubDate>Wed, 09 Jul 2008 07:30:20 +0000</pubDate>
		<dc:creator>孙 晗</dc:creator>
				<category><![CDATA[头脑风暴]]></category>
		<category><![CDATA[知识管理]]></category>
		<category><![CDATA[web2.0]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[数据咀嚼]]></category>
		<category><![CDATA[数据应用]]></category>
		<category><![CDATA[数据挖掘]]></category>

		<guid isPermaLink="false">http://www.melonlab.com/data-scheme-1collection/</guid>
		<description><![CDATA[世界在数据车轮上运转向前，一切行业都不能逃脱出万一。然而，我们该如何获取期望中的数据呢？下面，我抛砖引玉的写出一点我的看法： 1.结构化数据： 何谓结构化数据？就是可以放入数据库表单中的数据。比如一个人的信息，有生日、职业、住址、收入等等，这些属性都被结构化，各个变量也被声明。这样的数据放入数据库中，每次查询非常方便。那么，如何获取这类型的准确数据呢？我认为有两种比较可行的方法： 第一，用实用的信息来交换数据：为用户提供某些服务，而用户不必为此付任何的费用，而仅仅是填写一个表单，以此作为交换。这样，用户不会因为觉得自己信息是无偿奉献而填写一些虚假信息或者拒绝提供。当然，保证隐私安全是其根本。（获取信息后的使用方法，将在以后跟大家探讨。） 第二，利用信息黏性，分批逐次的获取结构化信息：就如同买洗发水时要先告诉服务人员自己发质一样。用户每次获取信息的同时，必然也会透露一部分信息。这种流程，窃妄言之为信息黏性，是由一个信息黏合另外一个相关信息，诚如前面说的“买洗发水”信息，黏合“个人发质”以及“预算”信息。 这两种方式如何在互联网上应用呢？我以为，不妨将信息搜集从注册过程向整个过程转变。即每个用户的信息非但在注册时，也可在使用过程中不断完善与更新。将这个过程拆散，可以使改善用户体验。如，在web2.0站点中，注册时仅用提供邮箱和注册密码（甚至连重复密码都可以省去，找回密码直接发至邮箱。如需避免恶意注册，可以验证，不过2.0时代，谁不希望用户多多呢？）。在用户使用过程中，如果希望给某人发信息或者点评某人的分享时，需要给自己起一个昵称，此时的昵称在确定后，写入数据库。希望搜索跟自己志趣相投之人，那么就要写出自己的兴趣。就像这样，把整个流程延长，利用信息的黏性和实用的信息来不断的促使用户奉献我们期望的数据，而这些数据则被结构化的写入数据库，供未来的数据分析之用。   （下周三写数据获取中的非结构化数据，有感兴趣的朋友不妨留意）]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">世界在数据车轮上运转向前，一切行业都不能逃脱出万一。然而，我们该如何获取期望中的数据呢？下面，我抛砖引玉的写出一点我的看法：</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span lang="EN-US">1.</span><span style="font-family: 宋体">结构化数据：</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">何谓结构化数据？就是可以放入数据库表单中的数据。比如一个人的信息，有生日、职业、住址、收入等等，这些属性都被结构化，各个变量也被声明。这样的数据放入数据库中，每次查询非常方便。那么，如何获取这类型的准确数据呢？我认为有两种比较可行的方法：</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">第一，用实用的信息来交换数据：为用户提供某些服务，而用户不必为此付任何的费用，而仅仅是填写一个表单，以此作为交换。这样，用户不会因为觉得自己信息是无偿奉献而填写一些虚假信息或者拒绝提供。当然，保证隐私安全是其根本。（获取信息后的使用方法，将在以后跟大家探讨。）</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">第二，利用信息黏性，分批逐次的获取结构化信息：就如同买洗发水时要先告诉服务人员自己发质一样。用户每次获取信息的同时，必然也会透露一部分信息。这种流程，窃妄言之为信息黏性，是由一个信息黏合另外一个相关信息，诚如前面说的“买洗发水”信息，黏合“个人发质”以及“预算”信息。</span></p>
<p class="MsoNormal" style="text-indent: 21pt; line-height: 150%"><span style="font-family: 宋体">这两种方式如何在互联网上应用呢？我以为，不妨将信息搜集从注册过程向整个过程转变。即每个用户的信息非但在注册时，也可在使用过程中不断完善与更新。将这个过程拆散，可以使改善用户体验。如，在</span><span lang="EN-US">web2.0</span><span style="font-family: 宋体">站点中，注册时仅用提供邮箱和注册密码（甚至连重复密码都可以省去，找回密码直接发至邮箱。如需避免恶意注册，可以验证，不过</span><span lang="EN-US">2.0</span><span style="font-family: 宋体">时代，谁不希望用户多多呢？）。在用户使用过程中，如果希望给某人发信息或者点评某人的分享时，需要给自己起一个昵称，此时的昵称在确定后，写入数据库。希望搜索跟自己志趣相投之人，那么就要写出自己的兴趣。就像这样，把整个流程延长，利用信息的黏性和实用的信息来不断的促使用户奉献我们期望的数据，而这些数据则被结构化的写入数据库，供未来的数据分析之用。</span></p>
<p class="MsoNormal"><span lang="EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><em><span style="font-family: 宋体">（下周三写数据获取中的非结构化数据，有感兴趣的朋友不妨留意）</span></em></p>
]]></content:encoded>
			<wfw:commentRss>http://www.melonlab.com/data-scheme-1collection/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

