从“数据挖掘”到“数据咀嚼”

人有三种心理可以通过互联网更好的满足,它们是成就感猎奇心理独家尊贵感Web2.0大行其道的今天,互联网入侵到我们生活的每一个环节,与此同时,在不同程度的满足我们前述三个心理。在此环境下,用户开始慷慨的分享信息。

而在用户分享信息的同时,网站也在希冀根据这些信息为用户提供更新的体验。这种模式,很多人称之为“数据挖掘。从web1.0的被动接受网站到web2.0的人人参与网站,越来越多的站点将用户的访问数据分别统计,基于这些统计数据为用户服务。比如一些推文网站,会根据用户所推荐之文,或者所阅读之内容来为用户推荐类似的文章;再比如一些分享影音分享网站,也会同理的向用户推荐比较受其欢迎,抑或所有用户喜爱的内容。

这种数据挖掘的模式,主要是将用户所分享的信息,标准成矩阵化,记录每个用户访问什么页面多少次,呆了多久,这些页面的tag引用多频繁,跳出率多高等等这些统计量。基于这些访问量,对所有用户最喜爱的内容进行排序;基于tag的引用,就类别进行排序等等。这样的数据挖掘诚然为用户提供了新的体验,为网站增添了新的元素,但是似乎还不够。我们是否能再进一步,不仅能从页面的访问量,基于标签的类别来各自相互独立的统计,而又考虑了各个变量间的相关性,做深一步的统计分析。在这里,相对于以往经验中各自统计的“数据挖掘”,我将添加了各变量间的统计分析妄称之为“数据咀嚼”。

在数据咀嚼中,我们可以通过数理统计的知识,深层次地咀嚼各种变量间的关系。比如,社群网站中,用户会将自己的兴趣爱好表露其外,而一般的网站,通常只是会对具有某一个爱好的所有用户进行统计,给网友一个人以群分的渠道。但是,每个人的爱好不可能仅有一个,那么若将用户所有爱好间的相关性进行分析,进一步到因子分析,聚类分析。为用户提供基于所有爱好的分类指标分析,帮助用户找到与自身相似的人群。这样的体验岂不妙哉?

再比如,在通常的分享影音网站中,是根据tag来分类的,如果用户访问某个视频,会根据tag为用户提供相应的讯息(如相关tag的视频)。这虽然应用了一些统计学知识,但是戛然而止,岂不可惜?若能将这些内容tag与观赏过内容的用户tag同时进行统计分析,则善之善也。试想,在阁下观看了一部影片之后,不单单推荐影片内容tag中同类影片(可能还会有与自己留下的tag统计最相关的影片),并且为您提供了这支影片所访问人群中与您最观赏习惯相似的人及他们分享抑或观赏的影片,这样PV量就会大大提升,而网站的粘性也会有更大的改观。要知道,靠用户量来生存网络业,能够让用户有以“片”会“友”的体验,打败其他同类网站,还会那么困难么?

盖数据咀嚼之要义,乃是在统计各变量之余,进一步分析各变量之间关系,达到充分利用网友慷慨分享信息之作用。

虽然我们这个时代被称为信息时代,却从来没有人把之称为知识时代。因为信息并不等于知识,信息要经过处理——包括接触、吸收、理解、整合与保留——然后才能转化为知识。数据咀嚼就是要把信息,转换成知识,为用户提供更好体验的知识。

如果哪位有兴趣,不妨留意讨论,或者发邮件到

找到4%差异的宝贝!管中窥豹,可知一斑?

当下最引人关注的话题是什么?大多数人都会将台湾地区选举作为答案之一。我不懂政治,无法像电视中滔滔不绝的时政评论员一样妙语连珠,亦不能像论坛中的各位方家一样,洞悉始终,明察秋毫。因此,我只能从我的角度,依我的逻辑,对了解的情况引申一些愚见。可谓管中窥豹,未知可见一斑否。

不知各位是否注意到,在投票结束之后,各种媒体都会关注台北县下的一个“神准村”,因为历届的选举,该村的结果与总体的情况偏差小于4%。我不关心这个“子样”神准的原因,而关注准确的“子样”能为预测、判断、分析总体带来巨大的裨益。诚如台湾之选举,在该村结果出来后,貌似天下大势已定,当事人与旁观者,俱以此来安排事宜。最终的结果也证明了这种“预判”的确有效。我们进一步想,如果点票的时间拉长,从4个小时,变为4个月,那么这个预判的效果就会更强。一言以蔽之,统计的功效!

话题回到我们所共同关注的互联网上,web2.0的时代,用户作为网站的命脉,如何为其提供更为他们需要的服务,良性改善用户之使用体验……等等如是问题,或困扰着网络从业者,或以团队(乃至个人)以偏概全的思想进行敷衍,得到的结果往往是黏性有限。如何解决呢?正如上文所提及的4%误差的“神准村”一样,我们web2.0的用户中,是否存在这样的4%误差的宝贝子样呢?答案是肯定的,这就如同正态分布中能找到充分完备统计量一样,完全可以达成。然而,创业家们是否探索过自己会员,去用最小成本的方式找到一个偏差小的子样,以无偏、一致、充分、完备地描述总体的需求,进而更好的完善呢?我想答案却是很遗憾的否定。

即便是国内做的比较好的web2.0站点,比如豆瓣网,也仅仅是偶尔在首页上添加一个投票,我不清楚阿北会不会给频繁使用者发关于使用体验的调查邮件,或者对于他们的使用体验进行专门分析,同时也不能确定,豆瓣的频繁使用者就是豆瓣目标用户的4%差异宝贝,因为我相信很多朋友第一次使用豆瓣是因为搜索某本书,CD抑或电影,之后每次有此需求之后才使用。但是,我认为像豆瓣网这类优秀的web2.0网站,确实应该重点审视自己目标用户的需求,并为其改善。而这些数据、信息却都能以最廉价、最快捷的方式来读取。何乐而不为哉?

找到4%偏差的宝贝样本,web2.0世界会越来越好玩,说不定某一天,你所钟意的网站首页就是你电脑桌面的样子。HOHO~这起码说明,这个网站也钟意你噢 :-)