世界在数据车轮上运转向前,一切行业都不能逃脱出万一。然而,我们该如何获取期望中的数据呢?下面,我抛砖引玉的写出一点我的看法:
1.结构化数据:
何谓结构化数据?就是可以放入数据库表单中的数据。比如一个人的信息,有生日、职业、住址、收入等等,这些属性都被结构化,各个变量也被声明。这样的数据放入数据库中,每次查询非常方便。那么,如何获取这类型的准确数据呢?我认为有两种比较可行的方法:
第一,用实用的信息来交换数据:为用户提供某些服务,而用户不必为此付任何的费用,而仅仅是填写一个表单,以此作为交换。这样,用户不会因为觉得自己信息是无偿奉献而填写一些虚假信息或者拒绝提供。当然,保证隐私安全是其根本。(获取信息后的使用方法,将在以后跟大家探讨。)
第二,利用信息黏性,分批逐次的获取结构化信息:就如同买洗发水时要先告诉服务人员自己发质一样。用户每次获取信息的同时,必然也会透露一部分信息。这种流程,窃妄言之为信息黏性,是由一个信息黏合另外一个相关信息,诚如前面说的“买洗发水”信息,黏合“个人发质”以及“预算”信息。
这两种方式如何在互联网上应用呢?我以为,不妨将信息搜集从注册过程向整个过程转变。即每个用户的信息非但在注册时,也可在使用过程中不断完善与更新。将这个过程拆散,可以使改善用户体验。如,在web2.0站点中,注册时仅用提供邮箱和注册密码(甚至连重复密码都可以省去,找回密码直接发至邮箱。如需避免恶意注册,可以验证,不过2.0时代,谁不希望用户多多呢?)。在用户使用过程中,如果希望给某人发信息或者点评某人的分享时,需要给自己起一个昵称,此时的昵称在确定后,写入数据库。希望搜索跟自己志趣相投之人,那么就要写出自己的兴趣。就像这样,把整个流程延长,利用信息的黏性和实用的信息来不断的促使用户奉献我们期望的数据,而这些数据则被结构化的写入数据库,供未来的数据分析之用。
(下周三写数据获取中的非结构化数据,有感兴趣的朋友不妨留意)
按照史蒂芬·科维的研究,人类的交际圈自小到大,有影响圈和关注圈这两个同心圆。顾名思义,影响圈是指我们所能够相互影响的人物,这个圈内的朋友,跟我们所熟识,因此也可以称之为“深度交往圈”。在这个圈子内,我们会发现彼此影响、深度交往的朋友,真正的应验了那句古话——人以群分。大家确实是靠类似的爱好或者性格而交往到了一起。而通过不断的交往,这些共同的爱好与性格进一步深化,这个圈子会越加巩固,当然,没有深化的人久而久之的便离开了这个圈子。
与此同时,我们交际中还有另外一个圈子,这其中的人物,或为我们单向关注,或为我们轻度交往,很难互相影响,貌似井水不犯河水。这个关注圈因此可以被称为“轻度交往圈”,在这个“轻度交往圈”内,造成彼此不能熟识的原因中最重要的一项大概就是彼此有这样那样的差别,如爱好、收入、信仰等。对比“深度交往圈”,稳定的“轻度交往圈”更像是体现人间百态的集合。同样的,“轻度交往圈”也可以转变成“深度交往圈”。
但是,两种交际圈的转变在传统情况下是缓慢、低效的,然而一旦装载上互联网这个高效引擎,巨大的变化产生了。就如同facebook与mySpace等社群网站一样,透过邮件联系人或者站内搜索好友的方式,很多“轻度交往圈”内的朋友能够毫无阻碍的与我们交流。试想一下,在线下可能会出现你与一位差别极大的一般朋友讨论装修细节的情况么?而这种差异性往往能给你带来无限的惊喜,我想大家都记得CCTV2的《交换空间》吧!
两种交际圈永远共存,不论是线上还是线下。而这种从影响圈(深度交往圈)到关注圈(轻度关注圈)的转变过程中,价值便体现了出来:如Facebook的巨大成功,很多归功于增加关注圈内朋友互信的附加值,因为facebook曾为一个封闭的社区,这种封闭性,让用户能在交际圈的转变过程中,摒弃顾虑,进而转变。
那么作为web2.0网站,我们在获取了大量用户慷慨提供的信息之后,如何进一步挖掘来为用户回馈更好的附加值呢?
1.网站可以将“同好”趋势,向“异好”趋势发展:比如用户表现出喜欢看某种类型的电影,那么网站在推荐给用户该种电影与同好的其他用户外,不妨将线上朋友中喜欢看另外种类电影的朋友告诉用户,让用户感觉到,哇,并不熟悉的他/她有这样的一面,虽然不同,但是亦会增进了解。
2.拥有一个更好的传递机制来连接两个圈子:现在的web2.0网站,对于陌生人的连接已经足够好,对于很好影响圈中的朋友的连接更无需多言。然而,对于关注圈内彼此的联系则几乎没有特殊考虑,无外乎站内信件,邮件联系人批处理邀请信。试想一下,一个交往不甚密切的朋友通过网站发给你的信息与其发给其密友的完全一样,其效果会一样么?因此,考虑交往频率、兴趣爱好、上线时间等元素,进行数据咀嚼,就能将线上的朋友疏密分清,而信息上再有所不同,让较亲密的朋友更加亲密,让较疏远的朋友不会尴尬。何乐而不为哉?
3.帮助用户解决问题:百度知道上面很少有朋友间的回答,或许是因为我们的朋友都不知道答案,也有可能是因为不知道答案(太接近)才成为了好友,因此帮助用户向“轻度交际圈”中的朋友咨询、讨教问题是不错的渠道。这不就是传说中的人肉搜索?而传说中是主动地问,我们能不能让它变成被动的推呢?听起来像是web3.0,不管像什么,这样的特点一定很棒。当然,这基于对数据的深度咀嚼。
上面写了自己的一点陋见,因为水平所限,偏见与错误在所难免,而依然把它拿出来与大家共享的原因就是,我们从事互联网,不断的想要流量、用户、信息、黏性,不断地把线下的东西搬到线上,表面上是方便了用户,但是实际上却让用户的体验进入了一种千篇一律的模式。希望能用交际圈的转变抛砖引玉,让网络创业者寻找与众不同的模式,利用数据挖掘(我更喜欢用数据咀嚼)为用户创造更不一样的体验。
今天一早惊闻谷歌推出人肉搜索引擎,于是便立刻尝试搜索。结果,呵呵,竟然是Google的愚人节恶作剧。不愧是Google,恶作剧的很有创意。恶作剧归恶作剧,谷歌还不忘宣传一下它的合作伙伴——天涯问答。
天涯问答是什么?能做什么?简单的说,与新浪爱问,百度知道,雅虎知识堂基本类似。新意无多。那么,我们不禁要问,曾放弃自己知识搜索的谷歌为何会与天涯合作,重新来开拓这个市场?仅仅是为了本地市场,以对抗百度?
或许是,然而我认为更主要的原因是,谷歌希冀能用天涯庞大的忠诚用户群,来尝试所谓的人肉搜索+知识搜索。进一步达到“搜人”的境界。如果说web1.0时代,信息的搜索是其极致;那么在2.0时代,巅峰就是搜人。
随着互联网上的主角从不可计数的信息,向每个平常的网民来转移。“搜人”的呼声也越来越高。但是,人毕竟不是冷冰冰的数据与信息,很难进行结构化,更不要言及数据挖掘了。然而,难归难,不是不可能。有需求就一定会有知识能够满足。我认为,人虽然不能简单的用数据来定义,但是可以根据人在互联网上留下的信息,并选取一个“样本(Sample)”来进行分析。就像一张照片、一段视频、一首音乐可以用很多人的智慧来打上标签(tags)一样。人在互联网上留下的信息,可以同理地反映人的属性,进而被索引,进一步可以达到搜索的目的。
但是,这其中也存在问题,每个人在互联网上留下的信息有多有少,关注的方向亦不尽相同。怎么办?这就要依靠数理统计的知识,合理的选择一个能够充分代表这个人信息的样本(sample)。同时还要考虑小样本下如何解决,样本中的信息如何量化估计等问题。在这里,我不引出任何的数学证明,只是简单的将思想表于下:
首先,让反映个人信息的样本选取成为一个动态的过程,结合贝叶斯估计与信息熵(information entropy)之理论,对其反映的情况(variance等统计量)进行评估。而后,将所有的人进行综合处理,标准化,提炼出一个“标准值”。以便最终横向评估搜索质量。最后,告诉被分析的每个人他的情况,每个人都有成就感,这种成就感会让他们在其关注的方面不断的自我更新,同时在互联网上留下这方面的信息。使得每个“人”自行帮助整个系统来良性运转。记住,搜人的目标是让我们整体的智慧更高,而不是为了把人分成三六九等。
回到天涯与谷歌的合作。毋庸置疑,天涯的洋量原创信息,其中最为重要的是每个用户的信息(发布的帖子,天涯问答的回答等),对于谷歌而言是一个廉价的数据库。经过严密的计算,对每个用户的信息进行抽样,所得之样本,根据信息熵等理论,反映用户在某方面的能力。进而可以达到按某种需求搜人的目的。(比如,搜索历史爱好者或者知道曹操八卦的人,就会搜出留下大量历史文字,甚至是设计曹操的人)。
当然,上述只不过是我的大胆假设,不当之处,敬请海涵,欢迎讨论。谢谢!
以前每每与朋友们聊到将来,大多会言及一个问题——在哪里的定居。我一般的回答是暂时没有计划,比较喜欢过段时间换个住处的随性生活。也正因为如此,搬家变成了家常便饭。于是乎,搬家之后的整理房间,随着东西的增多,也成了一个相对不是很轻松的事情。尤其是每次搬家之后,所有的东西该如何放置,才能让我在需要使用时最有效的找到,同时又避免全部放在桌面之上并导致混乱无序。诸如此类的问题,不可回避也不能回避。
其实,搭建一个网站,在某些程度上与房间的整理有着一定意义上的相似。无论是web1.0还是web2.0,作为网站服务商,总希望把信息尽可能全面的提供给用户,让用户感觉要找的信息全都触手可及;然而,这样的表述通常会使页面混乱不堪,致使用户浏览目标信息的效率大大下降。
既然信息一定要全面,又要避免用户查找信息的效率下降。那我们该如何做才能解决这个矛盾呢?
搬家整理房间,给了我一些启示:经过我多次整理东西(汗!),逐渐根据生活规律来放置物品:比如工作台左侧抽屉放置纸巾,便签;中间抽屉放置文具;右侧抽屉会放手机充电器,剃须刀等小电器;而左侧柜子放最近阅读的书籍,右侧柜子保留一些夜晚充饥的食品。这样,我能在第一时间,拿到我需要的物品,而那些曾经阅读过,且近期没有温习计划的书籍等物品则放在柜子中。如是往复,我工作台(平时应用最多的地方)中的物品可谓我最所需之物。而随着时间的流逝,有些东西保持不变,如手机充电器,剃须刀等,有些东西则不断更新。而这个更新的规则,基于我的生活规律,亦即物品本身与时间,消耗之间的相关关系。
把他应用到网络上,理固亦然。信息时代的海量信息虽然可以根据不同的类别进行编织(诚如整理房间中,把电器书籍分别放在一起),但是若能跟时间、使用频率这两个变量进行相关分析(如我左侧柜子里面的书籍),而不仅仅囿于同类之间(看过的书籍,且近期不再温习者放进其他的柜子)。这样为用户提供的他们最希望在第一时间得到的内容,整个系统通过数据的咀嚼,越来越聪明,不断改善用户的体验,帮助用户避免在信息爆炸中迷失方向,这样远比一个冰冷的搜索引擎加上分类的信息要强(一个所有东西的清单,甚至是电子表格。而所有的书籍,小电器,杂物,食品完全分类摆放。)
之前写过关于“数据挖掘”到“数据咀嚼”的文章,谈到当下之“数据挖掘”大多为同类之间的描述统计,而忽视了一变量与其他变量之间的关系。而我定义的“数据咀嚼”是不但包含变量内部,还包括变量间的分析。如适才所述,这样的利用还非常广泛,而更多元化的应用,恕余驽钝,暂时还没有更加系统的想法。权且将此文当作抛砖引玉的作用,希冀能够有更多数据咀嚼的点子诞生~XD
人有三种心理可以通过互联网更好的满足,它们是成就感,猎奇心理和独家尊贵感。Web2.0大行其道的今天,互联网入侵到我们生活的每一个环节,与此同时,在不同程度的满足我们前述三个心理。在此环境下,用户开始慷慨的分享信息。
而在用户分享信息的同时,网站也在希冀根据这些信息为用户提供更新的体验。这种模式,很多人称之为“数据挖掘”。从web1.0的被动接受网站到web2.0的人人参与网站,越来越多的站点将用户的访问数据分别统计,基于这些统计数据为用户服务。比如一些推文网站,会根据用户所推荐之文,或者所阅读之内容来为用户推荐类似的文章;再比如一些分享影音分享网站,也会同理的向用户推荐比较受其欢迎,抑或所有用户喜爱的内容。
这种数据挖掘的模式,主要是将用户所分享的信息,标准成矩阵化,记录每个用户访问什么页面多少次,呆了多久,这些页面的tag引用多频繁,跳出率多高等等这些统计量。基于这些访问量,对所有用户最喜爱的内容进行排序;基于tag的引用,就类别进行排序等等。这样的数据挖掘诚然为用户提供了新的体验,为网站增添了新的元素,但是似乎还不够。我们是否能再进一步,不仅能从页面的访问量,基于标签的类别来各自相互独立的统计,而又考虑了各个变量间的相关性,做深一步的统计分析。在这里,相对于以往经验中各自统计的“数据挖掘”,我将添加了各变量间的统计分析妄称之为“数据咀嚼”。
在数据咀嚼中,我们可以通过数理统计的知识,深层次地咀嚼各种变量间的关系。比如,社群网站中,用户会将自己的兴趣爱好表露其外,而一般的网站,通常只是会对具有某一个爱好的所有用户进行统计,给网友一个人以群分的渠道。但是,每个人的爱好不可能仅有一个,那么若将用户所有爱好间的相关性进行分析,进一步到因子分析,聚类分析。为用户提供基于所有爱好的分类指标分析,帮助用户找到与自身相似的人群。这样的体验岂不妙哉?
再比如,在通常的分享影音网站中,是根据tag来分类的,如果用户访问某个视频,会根据tag为用户提供相应的讯息(如相关tag的视频)。这虽然应用了一些统计学知识,但是戛然而止,岂不可惜?若能将这些内容tag与观赏过内容的用户tag同时进行统计分析,则善之善也。试想,在阁下观看了一部影片之后,不单单推荐影片内容tag中同类影片(可能还会有与自己留下的tag统计最相关的影片),并且为您提供了这支影片所访问人群中与您最观赏习惯相似的人及他们分享抑或观赏的影片,这样PV量就会大大提升,而网站的粘性也会有更大的改观。要知道,靠用户量来生存网络业,能够让用户有以“片”会“友”的体验,打败其他同类网站,还会那么困难么?
盖数据咀嚼之要义,乃是在统计各变量之余,进一步分析各变量之间关系,达到充分利用网友慷慨分享信息之作用。
虽然我们这个时代被称为信息时代,却从来没有人把之称为知识时代。因为信息并不等于知识,信息要经过处理——包括接触、吸收、理解、整合与保留——然后才能转化为知识。数据咀嚼就是要把信息,转换成知识,为用户提供更好体验的知识。
如果哪位有兴趣,不妨留意讨论,或者发邮件到这里。
当下最引人关注的话题是什么?大多数人都会将台湾地区选举作为答案之一。我不懂政治,无法像电视中滔滔不绝的时政评论员一样妙语连珠,亦不能像论坛中的各位方家一样,洞悉始终,明察秋毫。因此,我只能从我的角度,依我的逻辑,对了解的情况引申一些愚见。可谓管中窥豹,未知可见一斑否。
不知各位是否注意到,在投票结束之后,各种媒体都会关注台北县下的一个“神准村”,因为历届的选举,该村的结果与总体的情况偏差小于4%。我不关心这个“子样”神准的原因,而关注准确的“子样”能为预测、判断、分析总体带来巨大的裨益。诚如台湾之选举,在该村结果出来后,貌似天下大势已定,当事人与旁观者,俱以此来安排事宜。最终的结果也证明了这种“预判”的确有效。我们进一步想,如果点票的时间拉长,从4个小时,变为4个月,那么这个预判的效果就会更强。一言以蔽之,统计的功效!
话题回到我们所共同关注的互联网上,web2.0的时代,用户作为网站的命脉,如何为其提供更为他们需要的服务,良性改善用户之使用体验……等等如是问题,或困扰着网络从业者,或以团队(乃至个人)以偏概全的思想进行敷衍,得到的结果往往是黏性有限。如何解决呢?正如上文所提及的4%误差的“神准村”一样,我们web2.0的用户中,是否存在这样的4%误差的宝贝子样呢?答案是肯定的,这就如同正态分布中能找到充分完备统计量一样,完全可以达成。然而,创业家们是否探索过自己会员,去用最小成本的方式找到一个偏差小的子样,以无偏、一致、充分、完备地描述总体的需求,进而更好的完善呢?我想答案却是很遗憾的否定。
即便是国内做的比较好的web2.0站点,比如豆瓣网,也仅仅是偶尔在首页上添加一个投票,我不清楚阿北会不会给频繁使用者发关于使用体验的调查邮件,或者对于他们的使用体验进行专门分析,同时也不能确定,豆瓣的频繁使用者就是豆瓣目标用户的4%差异宝贝,因为我相信很多朋友第一次使用豆瓣是因为搜索某本书,CD抑或电影,之后每次有此需求之后才使用。但是,我认为像豆瓣网这类优秀的web2.0网站,确实应该重点审视自己目标用户的需求,并为其改善。而这些数据、信息却都能以最廉价、最快捷的方式来读取。何乐而不为哉?
找到4%偏差的宝贝样本,web2.0世界会越来越好玩,说不定某一天,你所钟意的网站首页就是你电脑桌面的样子。HOHO~这起码说明,这个网站也钟意你噢
最近评论