数据处理、市场策略与众包应用全解析
1. 数据合理性检查
在处理数据时,一般的合理性检查十分关键。这需要查看每个变量或列中的最大值和最小值,判断它们是否偏离正常范围。最佳的做法是绘制频率直方图,观察极端元素的位置。通过直观检查,还能确认数据分布是否符合预期,通常应为钟形分布。
在正态分布的数据中,数值偏离均值 k 个标准差的概率会随 k 的增大呈指数级下降。这就解释了为何不存在 10 英尺高的篮球运动员,同时也为识别异常值提供了合理的阈值。不过,幂律分布的数据则较难检测异常值,比如比尔·盖茨的财富超过普通人 10000 多倍。
直接删除包含异常值的行并非明智之举,因为异常值往往指向更系统性的问题。以历史人物寿命数据集为例,很容易将圣经中的玛士撒拉(活到 969 岁)视为异常值并剔除,但更明智的做法是思考他是否暗示着其他应被剔除的人物。玛士撒拉没有确切的出生和死亡日期,或许所有没有日期记录的人物年龄都应受到怀疑并进行清理。而维基百科中寿命最短的法国国王约翰一世仅活了 5 天,但其 1316 年 11 月 15 日出生和 11 月 20 日死亡的记录,足以证明其寿命数据的准确性。
2. 战胜市场的故事
一位研究生温斌试图利用情感分析系统预测股票价格。该系统能处理大量新闻和社交媒体文本,将其转化为每日时间序列,反映不同人物、地点和组织的出现频率及情感倾向。通过统计文本中与积极词汇(如“胜利的”)和消极词汇(如“被捕”)的关联频率,可构建任何有新闻价值实体的情感信号。
温斌模拟了一种策略:买入当日新闻中情感得分最高的股票,卖空情感得分最低的股票,结果看似不错。然而,使用当日新闻结果预测当前股价变动并不合理,因为文章描述的事件
数据处理与众包应用解析
超级会员免费看
订阅专栏 解锁全文
97

被折叠的 条评论
为什么被折叠?



