为了机器学习量化策略，我标注了两万条数据

最新推荐文章于 2025-12-28 17:03:40 发布

原创

最新推荐文章于 2025-12-28 17:03:40 发布 · 1.1k 阅读

·

29

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能

在这里插入图片描述

题图：芝加哥大学海德公园。芝大是经济学重镇，其学者开创了著名的芝加哥经济学派，共产生了 100 位诺奖、10 位菲尔兹奖、4 位图灵奖。今天量化人追逐的 Alpha，最早就来自于 Michael Jessen 在芝大时的博士论文。

很多人对基于机器学习的量化策略很好奇，常常问什么时候有机器学习的课。其实，对很多人（我自己就是）来说，没有能力改进机器学习的算法和框架，机器学习都是作为黑盒子来学习，难度主要是卡在训练数据上。

这篇文章，将介绍一种数据标注方法和工具。

有监督的机器学习需要标注数据。标注数据一般是一个二维矩阵，其中一列是标签（一般记为 y），其它列是特征（一般记为 X）。训练的过程就是：

$$

fit(x) = WX -> y’ \approx y

$$

训练就是通过反向传播来调整权重矩阵 $W$ ，使之得到的 $y^{'}$ 最接近于 $y$ 。

特征矩阵并不困难。它可以是因子在某个时间点上的取值。但如何标注是一个难题。它实际上反应的是，你如何理解因子与标签之间的逻辑关系：因子究竟是能预测标的未来的价格呢，还是可以预测它未来价格的走势？

应该如何标注数据

前几年有一篇比较火的论文，使用 LSTM 来预测股价。我了解到的一些人工智能与金融结合的硕士专业，还把类似的题目布置给学生练习。

作为练习题无可厚非，但也应该讲清楚，使用 LSTM 来预测股价的荒谬之处：你无法利用充满噪声的时序金融数据，从价格直接推导出下一个价格。

坊间还流传另一个方法，既然数据与标签之间不是逻辑回归的关系，那么我们把标签离散化，使之转换成为一个分类问题。比如，按第二天的涨跌，大于 3%的，归类为大幅上涨；涨跌在 1%到 3%的，归类为小幅上涨。在-1%到 1%的，归类为方向不明。

其实这种方法背后的逻辑仍然是逻辑回归。而且，为什么上涨 2.99%是小幅上涨，上涨 3%就是大幅上涨呢？有人就提出改进方法，在每个类之间加上 gap，即 [-0.5%, 0.5%] 为方向不明，[1%,3%] 为小幅上涨，而处在 [0.5%, 1%] 之间的数据就丢掉，不进行训练。这些技巧在其它领域有时候是有效的，但在量化领域，我认为它仍然不够好。因为原理不对。

我们应该回归问题的本质。要判断每一天的涨跌，其实是有难度的。但如果要判断一段趋势是否结束，则相对来讲，特征会多一点，偶然性会低一点。用数学语言来讲，我们可以把一段 k 线中的顶点标注为 1，底部标注为-1，中间的部分都标注为 0。每

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

量化风云 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。