数据盈余的价值

云计算以各种方式充斥在我们耳旁。确实,将存储或计算分布式部署在云端的产品与服务也在不经意间逐渐深入生活。智能手机、平板、PC、MAC、NAS间数据的相互共享,让效率极大的提升的同时,沉溺在云端(无论是个人私云还是公共云)的数据也在迅速爆炸。这些数据在产品改进或运营中发挥极大的作用,并且随着数据的丰富,数据挖掘手段和效率的提升,在完成产品或运营改进之余,产生大量的数据盈余,这些盈余往往有极大的价值。 继续阅读

数据驱动型团队建设

20110908233518

数据驱动的团队,是个多么有吸引力的名词。然而,说说总是比做到困难的多,在前往数据驱动的道路上,最可怕的不是数据及时性不足,亦非数据的分辨率过低,而是被表面上数量化掩盖住了数据建设的长期规划。

这种情况比比皆是,当通过数据测度,将若干关注的指标能够通过数据精确的表达出来之后,所谓的数据驱动假象就开始逐渐扩散,越来越多天马行空的需求不断提出。“既然已经有了数据和专门做数据的人,那么一切数据的获取成本都可以接受”的思想开始蔓延。久而久之,一种不考虑成本情况下希望快速获得目标数据,而不是考虑最终结论/推断的“数据贪心”心理将会对数据驱动型团队建设毁灭性的打击。即便满足了所有的数据需求,那也仅仅是通过满足需求而将问题所掩盖,长期来看,数据工作就像是订外卖一样,按照需求来下单。然而,成为营养师,才应该是数据驱动的目标。

继续阅读

数据王道:从移动互联网到微应用

互联网的发展,让人们所接受的信息几何级的增长。在信息泛滥的时代里,大多数人都已经习惯了在信息的冲击中生活。然而,离开了桌面终端,从一个信息充分,甚至到信息泛滥的情况,突然之间,转换到一个信息相对缺失的局面。人们开始变得有些抓狂,于是乎,移动互联网越来越为人所重视,因为,人们需要一个在渠道去满足已经习惯于信息轰炸的心理。而以微博客为代表的微应用,正是利用这个契机,通过移动互联网,基于智能手机或上网本这样的轻量级终端,实现人们在随时随地,自由的与信息接触。

然而,限于移动终端目前计算能力的有限,以及带宽情况的不足。微应用更多的是作为桌面应用的一个补充,或者是本身该应用就非常简单。如上文所述之微博客,即通过移动终端来对完成基本的收发信息,检索信息的功能。但是,作用却远远不止于此。在移动中会产生大量有用的数据。诚如在中国和美国搜索同一关键词的结果不同,本地化、个性化的使用体验是每一个用户所乐见的,而这些微应用恰恰可以基于移动终端,为实时本地化搜集数据,以改善使用体验。当然,隐私问题会是一个非常敏感的话题。但是今天的重点在于讨论数据应用,而隐私问题一定会由人们的智慧所解决。

那么,数据的应用还可以体现在哪些方面呢,下面,我将提出几个看法,与大家探讨:

继续阅读

浅见数据分析

data

我们生活在数据所驱动的世界之中,要掌握这个世界,就要懂得利用如何进行数据分析。用数据来揭示本质,找出问题,提出解决问题的方案,执行之后再通过数据来反映解决程度。互联网的时代,对于利用数据、分析数据更是不容置疑的重要。因为,我们离数据是如此之近,而数据改善我们体验的故事也是如此之多。

窃以为,数据分析有三种层面的理解:第一层,定期对已有数据的整理、分析及汇报。这是数据分析的最初应用。旨在通过频数等描述统计,用直观的报表或图形来“微言大义”的反应问题。如本月的女用户是增加用户中的比例,是总体用户的比例,这个比例达到一定情况下,说明了什么问题等等,这样通过已有数据来直观说明问题。不难理解,这样的数据处理方式与其是说数据分析,不如说是在做数据汇报。其目的性很明显,同时操作难度也不大,虽然简单,但是可以作为企业定量衡量绩效的重要方式。因为流程的可复制与程序化,大抵上可以采用一些软件来提高效率,当然,自行编写程序也是很好的选择之一。 继续阅读

绚丽的数字世界,曼妙的统计思想

前日在餐馆等待时,无意间与朋友聊起这家餐馆的收益情况,经过一番粗略计算,如此迷你的小餐馆,将受益量化后的数字,着实令我们诧异。

昨天早晨在路边的早点铺中,我在猜测,这家店的日流入与前日的餐馆相比如何,在好奇心策动下,我问了店长一下,得到的答案更是令我吃惊。

这样的小餐馆,早点铺的收入为何会与我们的预期差如此之远。原来,这些只是因为我们平时看到的世界全然为一种具象,而鲜有将其抽象化、数据化,于是乎,这些数字就离我们渐行渐远,甚至完全被传统固有观念所取代!

但是,如果能将生活中的点滴数量化,我们会发现这个“陌生”的世界,是多么的美丽。各种各样的新知,新想法也都会出现。这种把现实量化,进而分析、预测,并作为决策依据的思想,就是统计学思想。

世界运转在数字之上,而统计乃是其车轮。

借助统计学思想,这个强大无比的工具,我们的生活将极大的改变,世界也将变得绚烂多彩。机会也会随之而来,越来越多。

有很多人不停的问,数据从哪里来,用什么来挖掘,挖掘有什么用,统计不就是记录个数字,再求个和之类的么。窃以为,不要再问,而是去做,去体会。世界上的一切都可以量化,通过量化之后,来分析预测,寻找隐藏在数据背后的因素。C.R.Rao在他那本集统计学思想于大成的书《统计与真理》中,甚至用侦探的例子来显示统计的无所不在。

就如同上述最简单的餐饮,如果能将客人数、菜单上每个菜被点的频率、哪个座位最受客人青睐、上菜等待时间等等数据化,那么影响客人多寡的因素,菜品的改良,店内布局的提升,厨师及服务态度的改善等等这些关系到餐馆(我不太懂餐饮,只是凭直觉说)是否良性营业的元素,是否突然间大白于天下呢?

再如我们生活中必不可少的理财来说,就蕴含着统计的智慧,消费、生活之余的资金,怎么管理,购买金融产品?储蓄?投资?还是其他?似乎每一项都有道理,但是每一项都蕴含着风险或者是消耗一定的机会成本。运用统计冰山之一角,以最简单的线性组合,用标准差来亮度风险,用均值来预测收益,用历史数据来获取前述之资料……仅此而已,又有何难?

管理者们,通常说:“我们靠的是事实与直觉,事实不足时,靠直觉。”因此,早就直觉的经验成为了最大的砝码。而我觉得,在运用直觉之前,不妨用统计的思想来思考那些事实不足之事,用统计的武器来量度这些不确定性之事。那么,对于管理者而言,是否会相对更准确呢?

统计蕴含着世界的客观规律,要找到这规律,就请先将你的世界量化。当然,前提是你想征服你自己的世界,而不是被世界所驾驭。

数据秘籍(一)

世界在数据车轮上运转向前,一切行业都不能逃脱出万一。然而,我们该如何获取期望中的数据呢?下面,我抛砖引玉的写出一点我的看法:

1.结构化数据:

何谓结构化数据?就是可以放入数据库表单中的数据。比如一个人的信息,有生日、职业、住址、收入等等,这些属性都被结构化,各个变量也被声明。这样的数据放入数据库中,每次查询非常方便。那么,如何获取这类型的准确数据呢?我认为有两种比较可行的方法:

第一,用实用的信息来交换数据:为用户提供某些服务,而用户不必为此付任何的费用,而仅仅是填写一个表单,以此作为交换。这样,用户不会因为觉得自己信息是无偿奉献而填写一些虚假信息或者拒绝提供。当然,保证隐私安全是其根本。(获取信息后的使用方法,将在以后跟大家探讨。)

第二,利用信息黏性,分批逐次的获取结构化信息:就如同买洗发水时要先告诉服务人员自己发质一样。用户每次获取信息的同时,必然也会透露一部分信息。这种流程,窃妄言之为信息黏性,是由一个信息黏合另外一个相关信息,诚如前面说的“买洗发水”信息,黏合“个人发质”以及“预算”信息。

这两种方式如何在互联网上应用呢?我以为,不妨将信息搜集从注册过程向整个过程转变。即每个用户的信息非但在注册时,也可在使用过程中不断完善与更新。将这个过程拆散,可以使改善用户体验。如,在web2.0站点中,注册时仅用提供邮箱和注册密码(甚至连重复密码都可以省去,找回密码直接发至邮箱。如需避免恶意注册,可以验证,不过2.0时代,谁不希望用户多多呢?)。在用户使用过程中,如果希望给某人发信息或者点评某人的分享时,需要给自己起一个昵称,此时的昵称在确定后,写入数据库。希望搜索跟自己志趣相投之人,那么就要写出自己的兴趣。就像这样,把整个流程延长,利用信息的黏性和实用的信息来不断的促使用户奉献我们期望的数据,而这些数据则被结构化的写入数据库,供未来的数据分析之用。

 

(下周三写数据获取中的非结构化数据,有感兴趣的朋友不妨留意)