存档

文章标签 ‘数据分析’

浅见数据分析

2009年7月10日 孙 晗 3 条评论

data

我们生活在数据所驱动的世界之中,要掌握这个世界,就要懂得利用如何进行数据分析。用数据来揭示本质,找出问题,提出解决问题的方案,执行之后再通过数据来反映解决程度。互联网的时代,对于利用数据、分析数据更是不容置疑的重要。因为,我们离数据是如此之近,而数据改善我们体验的故事也是如此之多。

窃以为,数据分析有三种层面的理解:第一层,定期对已有数据的整理、分析及汇报。这是数据分析的最初应用。旨在通过频数等描述统计,用直观的报表或图形来“微言大义”的反应问题。如本月的女用户是增加用户中的比例,是总体用户的比例,这个比例达到一定情况下,说明了什么问题等等,这样通过已有数据来直观说明问题。不难理解,这样的数据处理方式与其是说数据分析,不如说是在做数据汇报。其目的性很明显,同时操作难度也不大,虽然简单,但是可以作为企业定量衡量绩效的重要方式。因为流程的可复制与程序化,大抵上可以采用一些软件来提高效率,当然,自行编写程序也是很好的选择之一。 阅读全文…

收藏与分享

绚丽的数字世界,曼妙的统计思想

2008年7月21日 孙 晗 2 条评论

前日在餐馆等待时,无意间与朋友聊起这家餐馆的收益情况,经过一番粗略计算,如此迷你的小餐馆,将受益量化后的数字,着实令我们诧异。

昨天早晨在路边的早点铺中,我在猜测,这家店的日流入与前日的餐馆相比如何,在好奇心策动下,我问了店长一下,得到的答案更是令我吃惊。

这样的小餐馆,早点铺的收入为何会与我们的预期差如此之远。原来,这些只是因为我们平时看到的世界全然为一种具象,而鲜有将其抽象化、数据化,于是乎,这些数字就离我们渐行渐远,甚至完全被传统固有观念所取代!

但是,如果能将生活中的点滴数量化,我们会发现这个“陌生”的世界,是多么的美丽。各种各样的新知,新想法也都会出现。这种把现实量化,进而分析、预测,并作为决策依据的思想,就是统计学思想。

世界运转在数字之上,而统计乃是其车轮。

借助统计学思想,这个强大无比的工具,我们的生活将极大的改变,世界也将变得绚烂多彩。机会也会随之而来,越来越多。

有很多人不停的问,数据从哪里来,用什么来挖掘,挖掘有什么用,统计不就是记录个数字,再求个和之类的么。窃以为,不要再问,而是去做,去体会。世界上的一切都可以量化,通过量化之后,来分析预测,寻找隐藏在数据背后的因素。C.R.Rao在他那本集统计学思想于大成的书《统计与真理》中,甚至用侦探的例子来显示统计的无所不在。

就如同上述最简单的餐饮,如果能将客人数、菜单上每个菜被点的频率、哪个座位最受客人青睐、上菜等待时间等等数据化,那么影响客人多寡的因素,菜品的改良,店内布局的提升,厨师及服务态度的改善等等这些关系到餐馆(我不太懂餐饮,只是凭直觉说)是否良性营业的元素,是否突然间大白于天下呢?

再如我们生活中必不可少的理财来说,就蕴含着统计的智慧,消费、生活之余的资金,怎么管理,购买金融产品?储蓄?投资?还是其他?似乎每一项都有道理,但是每一项都蕴含着风险或者是消耗一定的机会成本。运用统计冰山之一角,以最简单的线性组合,用标准差来亮度风险,用均值来预测收益,用历史数据来获取前述之资料……仅此而已,又有何难?

管理者们,通常说:“我们靠的是事实与直觉,事实不足时,靠直觉。”因此,早就直觉的经验成为了最大的砝码。而我觉得,在运用直觉之前,不妨用统计的思想来思考那些事实不足之事,用统计的武器来量度这些不确定性之事。那么,对于管理者而言,是否会相对更准确呢?

统计蕴含着世界的客观规律,要找到这规律,就请先将你的世界量化。当然,前提是你想征服你自己的世界,而不是被世界所驾驭。

收藏与分享

数据秘籍(二)——非结构化数据的整理

2008年7月16日 孙 晗 1 条评论

前接数据秘籍(一)

上次探讨到如何获取结构化数据,现在我们来一起研究下非结构化数据的整合。

什么是非结构化数据?

像自然语言一样,没有固定的结构的数据。比如论坛的帖子,个人的介绍等等。

通常的处理方法是?

这些内容在任何一个网站中,都会或多或少涉及到,而通常的方法是将其分门别类的,如帖子内容为一类、个人介绍为一类来写入数据库。在应用时,再利用信息熵与一些统计学知识来进行利用。因此,这类数据在大多数情况下是通过用户主动贡献而获取的。

换个角度想

就像结构化数据获取一样,用户慷慨奉献是因为在贡献的本身,对其自己有一定的益处。非结构化数据在满足用户某些需求后(比如发帖评论等),若能再进一步,用一些简单的统计伎俩来发展的话,用户会更加倾向来奉献非结构化数据。应用哪些伎俩呢?

1.非结构数据的价值量:可以通过计算机标准化计算,作为一个测度。让用户快速得到反馈,比如发布一个帖子,其信息价值两通过信息熵得到一个评分。

2.与结构化数据相结合:对非结构化数据添加其他用户的打分或其他量化指标,让前述的“人工智能”变成“工人智能”。

这样操作的效果:

任何一个服务,都不能回避非结构化数据,而对于非结构化数据的应用在未来互联网的发展,更是起着巨大的作用。因此,只有获取到更多,或者说让用户无私奉献更多这样的信息,才能发挥数据的魔力,为用户更好的改善体验。

结合结构化与非结构化数据,举一个例子来应用:

比如要做一个威客,每个项目的投标门槛非常低,只要注册就可以。这就让项目的发布商难以选择。然而如果该威客若能依托一个维基系统,每个注册用户在该维基系统上的贡献程度(非结构化数据)、其他人的评分(结构化)、贡献的频率与类别(结构化)等信息能够从一定角度上反映出用户在某些方面的精通程度。依此来帮助项目投放者选择投标者。与此同时维基系统的内容必然也会极大的丰富。可谓两全其美。

数据搜集之后,准确的是说有目的搜集之后,如何改善用户之体验,并获得经济效益呢?下周的文章中,会有一些探讨。

收藏与分享

数据秘籍(一)

2008年7月9日 孙 晗 1 条评论

世界在数据车轮上运转向前,一切行业都不能逃脱出万一。然而,我们该如何获取期望中的数据呢?下面,我抛砖引玉的写出一点我的看法:

1.结构化数据:

何谓结构化数据?就是可以放入数据库表单中的数据。比如一个人的信息,有生日、职业、住址、收入等等,这些属性都被结构化,各个变量也被声明。这样的数据放入数据库中,每次查询非常方便。那么,如何获取这类型的准确数据呢?我认为有两种比较可行的方法:

第一,用实用的信息来交换数据:为用户提供某些服务,而用户不必为此付任何的费用,而仅仅是填写一个表单,以此作为交换。这样,用户不会因为觉得自己信息是无偿奉献而填写一些虚假信息或者拒绝提供。当然,保证隐私安全是其根本。(获取信息后的使用方法,将在以后跟大家探讨。)

第二,利用信息黏性,分批逐次的获取结构化信息:就如同买洗发水时要先告诉服务人员自己发质一样。用户每次获取信息的同时,必然也会透露一部分信息。这种流程,窃妄言之为信息黏性,是由一个信息黏合另外一个相关信息,诚如前面说的“买洗发水”信息,黏合“个人发质”以及“预算”信息。

这两种方式如何在互联网上应用呢?我以为,不妨将信息搜集从注册过程向整个过程转变。即每个用户的信息非但在注册时,也可在使用过程中不断完善与更新。将这个过程拆散,可以使改善用户体验。如,在web2.0站点中,注册时仅用提供邮箱和注册密码(甚至连重复密码都可以省去,找回密码直接发至邮箱。如需避免恶意注册,可以验证,不过2.0时代,谁不希望用户多多呢?)。在用户使用过程中,如果希望给某人发信息或者点评某人的分享时,需要给自己起一个昵称,此时的昵称在确定后,写入数据库。希望搜索跟自己志趣相投之人,那么就要写出自己的兴趣。就像这样,把整个流程延长,利用信息的黏性和实用的信息来不断的促使用户奉献我们期望的数据,而这些数据则被结构化的写入数据库,供未来的数据分析之用。

 

(下周三写数据获取中的非结构化数据,有感兴趣的朋友不妨留意)

收藏与分享
Clicky Web Analytics