一、机器学习从业方向
从事机器学习的从业人员大致分为以下三类:
1.“重造轮子”学派:如百度的PaddlePaddle
2.“参数调教”学派:如一些研究院或学校,为了发表文章而过于注重参数调优,从而导致了模型过拟合。
3.“拳打脚踢”学派:研发人员都分散在业务组,他们都不会在参数调优上浪费时间,而是更注重实际业务的处理。
二、机器学习模型选择。
机器学习有监督学习和非监督学习两类。
1. 监督学习有:决策树、K近邻、贝叶斯决策、SVM、逻辑回归等。
2.非监督学习有:K means,PCA等。
近来深度学习得到了飞速的发展,但是由于其模型的复杂与不好解释等特性,其在实际中的应用还是有应用限制,并且由于深度学习需要大量的数据来训练庞大的神经网络,因此它更使用与有数据的应用场景:图片,语音,广告推送等。
如果数据量小,稀疏的数据不足以支撑复杂神经网络的训练的时候,深度学习的表现就不是那么理想,反而传统的机器学习方法,或更进一步说一些简单的线性分类器反而能表现出非常卓越的性能。
三、机器学习中比较活跃的四大应用领域:
1. 数据挖掘:糖尿病预测、血糖值预测等,数据集一般都是一些关系型数据库。
2. 计算机视觉:图片分类、目标检测、语义分割、场景理解、人脸识别等,数据集一般都是一些图片。
3. 自然语言处理:文本分类、自动生成文本摘要、翻译、人机对话等,数据集一般是一些语音数据或文本资料。
4. 机器人决策:自动驾驶、机器人开门等
四、对自身的要求。
1.路线:传统机器学习->深度学习->强化学习(实际场景可能对机器学习的要求不同)
2.方法:循序渐进
3.使用现有的模型入sklearn /tensorflow/…………等进行训练,基于先用应用的一些基础,解决自己的问题。
4.在掌握好基本机器学习方法的情况下,可以参加几次比赛验证自己的水平。
5.将机器学习模型进行移植,解决自己的问题。