浅见数据分析

我们生活在数据所驱动的世界之中,要掌握这个世界,就要懂得利用如何进行数据分析。用数据来揭示本质,找出问题,提出解决问题的方案,执行之后再通过数据来反映解决程度。互联网的时代,对于利用数据、分析数据更是不容置疑的重要。因为,我们离数据是如此之近,而数据改善我们体验的故事也是如此之多。
窃以为,数据分析有三种层面的理解:第一层,定期对已有数据的整理、分析及汇报。这是数据分析的最初应用。旨在通过频数等描述统计,用直观的报表或图形来“微言大义”的反应问题。如本月的女用户是增加用户中的比例,是总体用户的比例,这个比例达到一定情况下,说明了什么问题等等,这样通过已有数据来直观说明问题。不难理解,这样的数据处理方式与其是说数据分析,不如说是在做数据汇报。其目的性很明显,同时操作难度也不大,虽然简单,但是可以作为企业定量衡量绩效的重要方式。因为流程的可复制与程序化,大抵上可以采用一些软件来提高效率,当然,自行编写程序也是很好的选择之一。
第二层,基于目的性的分析研究。企业生存的核心是账面上的数字,但往往谈论的是产品和服务应该怎样被客户所接受这样的问题。因此,将企业所关注与讨论的问题定量化,模型化,而后去主动的搜索信息,基于模型整理、分析之后,揭示这些企业关心的问题。如服务的同质性、可替代性、主观问题如满意度的客观解释等。这些数据用描述统计所得到的结果往往是有偏、不一致的。需要通过数理统计的处理,应用适用的模型去测度。最终,告诉决策者,我们的产品与服务中诸如可替代性、满意度等问题的答案是什么。这一层面上,相较于第一层的“数据整理与汇报”而言,最大的改变是去测度,而非简单通过频数来描述。
第三层,无明确目的的问题解决性分析。前述的方式,无论是分析汇报数据的描述统计,还是基于对某一关心问题的测度研究,都是基于在决策层认为信息不足以决策之时,为了补足信息而做出的研究。而无明显目的的问题,则是决策层希望解决问题,但却不能确认究竟是哪些数据在影响问题,如何分析数据才能找到答案的情况下,用一个整体、且又模糊的目的来指导数据分析。比如,如何才能增加用户、如何将非积极用户转化为积极用户、怎样使得用户认可商业模式等等。要解决这类问题,首先要做的就是量化问题,将不明确的问题,用可以测度的变量来支撑。例如网站粘性不高问题的解决,可以转化为:定义积极用户、定义非积极用户的、此二者的差异、二者差异之于其他网络服务是否具有同样的差异等等可以通过第二层的数据分析测度的变量,用这些变量来支撑网站粘性不高问题,如何解决这样一个很难直接测度的问题。显而易见,找到可以测度的支撑变量,并且用这些变量支撑,是有足够可信度来发现问题的。这其中应用到的与其说是统计分析工具,不如说是统计思想。
对于数据分析,我认为没有任意一种工具与模型是可以通用的,因此每个问题都要通过统计思想与经验去甄别、选择合适的分析工具。更为重要的是,统计工具没有时髦与否,只有适用之分。要利用统计思想去探求事物的本源,而不是形而上的统计工具应用。
最后需要声明一点,上述的三层仅仅是为了说明问题,在实际应用中不宜将数据分析主观割裂开来。
感谢阅读!一家之言,止曾笑尔。

“统计工具没有时髦与否,只有适用之分”说的一针见血,追求统计工具的时髦,这是统计学术界目前现在普遍存在的问题之一~
我经常用Excel,数据透视表可以做第一类工作,需要做频率分布描述的时候,有多时候用的是组合功能;第二类说实话,我没能完全理解博主的意思,最好是有例子来说明。我对商业问题的理解是:首先,对大量数据进行汇总、分类统计,其结果是看清其代表的业务结构;比如:销量占比、产品占比、不同类别客户占比;其次,需要对这个结构问题进行进一步的因果分析,一个好的方法是看趋势,关注数据指标的变化随哪些相关因素而变,这些因素就是我们要找的原因,直到能作出足够现象解释为止。比如:利润有波动,通过销售的结构发现毛利高部分产品销量占比上升,可能是该类产品推出的新产品足够吸引人等等。针对第三类问题,本质应该是面向未来的问题,是个决策问题,所以具有不确定性,需要引入更多的“管理假定”,也就是博主说的“定义”“可测度的支撑变量”等,其分析手段是基本一致的。
@Cook
关于第二层,我的本意是一些无法直接用统计量(如产生单位销售额的成本变化趋势等)来衡量的问题。如某个产品或者服务的满意度,这种主观的想法简单的通过问卷调查,很难准确的得到真实的信息。类似这样的问题,我认为需要用一些可以直接衡量的统计量去支撑。如满意度,使用“购买程度、第几次购买、是否第一提及、投诉次数等”。通过这些变量来达到客观了解真实满意度的目的。
对于第三层,阁下的看法很有道理,需要引入很多假设,用当下的数据去对未来进行分析,或者说是为了拟合预期。而改变当下的某些行为。
非常感谢您的阅读和真知灼见