33、数据科学与机器学习实用指南

数据科学与机器学习实用指南

一、P - hacking现象解析

P - hacking指的是在海量数据中寻找数据元素之间的相关性,即便这种相关性可能根本不存在。比如在这个链接https://www.buzzfeednews.com/article/kjh2110/the - 10 - most - bizarre - correlations 中,有一些很有趣的例子,像全球变暖导致海盗数量减少(吃饭喝汤时可别读这个)。有时候,不太熟练的研究人员在查看数据时,可能会误打误撞地有“灵光一现”,但在同行审查时就会显得缺乏依据。还有些情况是,有人为了保住工作而写论文发表,这种有目的的P - hacking会在科学界造成严重问题。

二、统计建模与机器学习的区别

有些人会把统计建模和机器学习搞混。统计建模本质上是用来验证假设的,而机器学习则是用来探索各种可能性的。数据的规模和最终目标决定了使用哪种建模方式。统计建模在处理小规模数据集时效果最佳,因为可以针对这些数据创建一组严格的有限假设进行测试。而机器学习在处理海量数据集时表现出色,因为这些数据集无法像统计建模那样得出精确、可证明的结果。

三、机器学习在行为数据分析中的问题

如今,在使用机器学习处理行为数据时,最大的问题是结果的解释。要让很多人相信机器学习应用的结果,创建该应用的人必须能够解释应用是如何得出这个结果的。但在很多情况下,机器学习应用就像一个黑匣子,无法确定是如何预测行为的,这就使得预测结果令人怀疑。

四、整合文本与行为数据(以MSWeb数据集为例)

4.1 查看属性

MSWeb数据集关注的是文章形式的文本和用户的行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值