以前也算比较系统接触过机器学习吧,记得最早的时候是大二,机器学习才刚开始提起,更多的是说统计学习。那个时候,深度学习似乎都还没有听过,看的第一本书也是一本外国人写的,一直拿鸢尾花数据集当例子的书。当时看完也没觉得什么,毕竟年轻,何况那个时候很多东西就是觉得好奇好玩而去学一下。
后来也慢慢接触到,也编程实践过,不过一直都不怎么成体系。最近觉得,还是得再跟一下潮流,所以还是赶紧学习吧。《python机器学习及实践》这本书有点像量化界丁校友的那本书,很广泛;但是又比丁校友那本书好一点,就是具有很强的实践性。当然啦,既然看中实践性了,那么理论知识就不那么多了,所以全书的理论真的没有多少,如果之前完全没有接触过的同学,可能把代码全部敲了一遍也没有什么深刻的体会,所以还是应该先看一点偏理论的书吧。还好自己多少还有点ml的知识储备,花了半天不到就把这本书看完了,梳理了一遍的感觉还是很不错的,最大的收获大概就是明白怎么用sklearn了吧。以前都是很随意的使用,sklearn对我而言就是一些算法的包装而已,参数搜索、交叉验证什么的 全部自己上手,看完才发现,什么叫做工欲善其事,必先利其器。
本人对监督学习比较感兴趣,毕竟量化投资本质上就是一个监督学习的问题,可能偶尔的小范围、小课题会涉及到非监督学习。根据书中给的监督学习经典模型的架构如下:
- 首先准备训练数据。可以是文本、图像、音频
- 然后抽取所需要的特征,形成特征向量
- 连同特征向量和对应的label放入模型中学习
- 采用同样的特征提取方法作用于新的测试数据,得到特征向量
- 使用预测模型预测结果&#