数据科学与机器学习实用指南
一、P - hacking现象解析
P - hacking指的是在海量数据中寻找数据元素之间的相关性,即便这种相关性可能根本不存在。比如在这个链接https://www.buzzfeednews.com/article/kjh2110/the - 10 - most - bizarre - correlations 中,有一些很有趣的例子,像全球变暖导致海盗数量减少(吃饭喝汤时可别读这个)。有时候,不太熟练的研究人员在查看数据时,可能会误打误撞地有“灵光一现”,但在同行审查时就会显得缺乏依据。还有些情况是,有人为了保住工作而写论文发表,这种有目的的P - hacking会在科学界造成严重问题。
二、统计建模与机器学习的区别
有些人会把统计建模和机器学习搞混。统计建模本质上是用来验证假设的,而机器学习则是用来探索各种可能性的。数据的规模和最终目标决定了使用哪种建模方式。统计建模在处理小规模数据集时效果最佳,因为可以针对这些数据创建一组严格的有限假设进行测试。而机器学习在处理海量数据集时表现出色,因为这些数据集无法像统计建模那样得出精确、可证明的结果。
三、机器学习在行为数据分析中的问题
如今,在使用机器学习处理行为数据时,最大的问题是结果的解释。要让很多人相信机器学习应用的结果,创建该应用的人必须能够解释应用是如何得出这个结果的。但在很多情况下,机器学习应用就像一个黑匣子,无法确定是如何预测行为的,这就使得预测结果令人怀疑。
四、整合文本与行为数据(以MSWeb数据集为例)
4.1 查看属性
MSWeb数据集关注的是文章形式的文本和用户的行