最近看某一公总号上把大数据技术比作太上老君八卦炉炼丹。原始数据集相当于原材料,数学模型比作八卦炉,算法被比喻成三昧真火,而大数据工程师被比喻为炼丹师。本人非常认同这个有趣的比喻,生动形象地展示整个大数据工作流程。
早些年,当大数据技术还不火的时候,我们对数据的利用主要是一些绘图展示一些肉眼就能看出的规律,用的工具主要都是EXCEL类的数据处理软件,做的工作放到现在都只能说是一些数据预处理的工作。比如删除有问题的记录,凭经验补充缺省数据,用一点柱状图和折线图给领导展示一些规律,求求平均数和方差等等,就算是利用数据分析技术去解决问题了。
后来,由于通信技术的不断发展,渐渐改变了人们的生活方式,我们迎来大数据时代。每天每个人通过手机、电脑、一些物联网设备产生惊人的数据,并且一些商业公司通过分析海量数据,提取出有用信息,成功利用这些有用信息捞到了第一桶金。到了现在,你可以在各种场所看到“大数据”、“人工智能”、“数据挖掘”、“云计算”、“物联网”等字眼。
大数据技术的研究也是如火如荼。这里面主要是两拨主力军,一拨是统计学者,一拨是优化算法学者。按照上面的说法,就是一个是研究搭建八卦炉的,一个是研究三昧真火的。
统计学者研究思路一般是这样的。他们更关注的是如何构建数学模型。根据自己掌握的数据特点,提出一些新问题,针对这一系列新问题,搭建一系列新模型。他们不断地提出新的模型,并且从统计学意义上对所提出的模型做理论分析。他们总是假设自己的模型是能够通过某种算法找出最优解的。然后分析这个解的“无偏性”、“渐进无偏性”、“鲁棒性”、“渐进鲁棒性”、“Oracle性质”、“正态性”等等,说明这个模型的最优解是具有一些好的性质的,理论就基本搭建完了。接着就是做实验验证自己模型的正确性。由于他们主要研究搭建数学模型,不太注重算法研究。但是八卦炉搭建完了,得点火炼丹啊。他们不自己做算法,但是做实验时,需要找一个算法来驱动他们的模型来获得模型参数。所以,一般做法就是拿当前学术界鼓吹得最好的几个算法来跑自己的模型,多试几个,挑选出最好的一个就算完事了。然后通过一些专门的数据库拉出来的官方数据测试自己的模型的性能,列出一些指标,说明自己的模型怎么怎么好就完事了。你会发现,在他们的实验里,他们很少展示算法框架和实验的运行时间,因为