什么是机器学习?(What is Machine learning?)
Machines can "learning" by ayalyzing large amouts of data.
机器学习和人工智能的关系
ML是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。ML是AI的一部分,并且和知识发现与数据挖掘有所交集。
ML的工作方式
1、选择数据(三组:训练数据、验证数据、测试数据)
2、模型数据(使用训练数据来构建使用相关特征的模型)
3、验证模型
4、测试模型
5、使用模型
6、调试模型
ML的五大流派
1、符号主义:使用符号、规则和逻辑来表征知识和进行逻辑推理,代表算法:决策树;
2、贝叶斯派:获取发生的可能性来进行概率推理,代表算法:朴素贝叶斯、马尔科夫;
3、联结主义:使用概率矩阵和加权神经元来动态地识别和归纳模式,代表算法:神经网络;
4、进化主义:生成变化、然后特定目标获取其中最优的解,代表算法:遗传算法;
5、Analogizer:根据约束条件来优化函数,代表算法:支持向量机。
ML演化的阶段
1980年代:
- 主导流派:符号主义
- 架构:服务器或大型机
- 主导理论:知识工程
- 基本决策逻辑:决策支持系统
1990~2000年代:
- 主导流派:贝叶斯
- 架构:小型服务器集群
- 主导理论:概率论
- 分类:可扩展的比较或对比
2010年代早期到中期:
- 主导流派:联结主义
- 架构:大型服务器集群
- 主导理论:神经科学和概率
- 识别:更加精准的图像和语音识别、翻译、情绪分析等
2010年代末期:
- 主导流派:联结主义+符号主义
- 架构:云
- 主导理论:记忆神经网络,大规模集成,基于知识的推理
- 简单的问答:范围狭窄的、领域特定的知识共享
最常见的算法
1、决策树(Decision Tree)
优点:擅长对人、地点、事物一系列不同特征、品质、特性进行评估
场景:基于规则的信用评估、赛马结果预测
2、支持向量机(Support Vector Machine)
优点:支持向量机擅长在变量x与其它变量之间进行二元分类操作,无论其关系是否是线性的
场景:新闻分类、手写识别
3、回归(Regression)
优点:回归可用于识别变量之间的连续关系
场景:路面交通流量分析、邮件过滤
4、朴素贝叶斯分类(Naive Bayes Classification)
优点:对于在小数据集上有显著特征的相对关系,朴素贝叶斯方法可以对其进行快速分类
场景:情感分析、消费者分类
5、隐马尔可夫模型(Hidden Markov model)
优点:容许数据的变化性,适用于识别和预测操作
场景:面部表情分析、气象预测
6、随机森林(Radom forest)
优点:被证明对大规模数据集和存在大量且有时不相关特征的项(item)来说很有用
场景:用户流失分析、风险评估
7、循环神经网络(Recurrent neural network)
优点:在存在大量的有序信息时具有预测能力
场景:图像分类与字幕添加、政治情感分析
8、长短期记忆(LSTM)和门控循环单元神经网络(GRUNN)
优点:有更好的记忆能力
场景:自然语言处理、翻译
9、卷积神经网络(Convolution neural network)
优点:当存在非常大的数据集,大量特征和复杂的分类任务时,卷积神经网络非常有用
场景:图像识别、文本转语音、药物发现
ML的三要素
- 模型
- 假设空间,或者说是一组函数的集合,这组集合中的函数都讲输入空间映射到输出空间
- 策略
- 寻找最优模型的准则,怎么评价假设空间中的函数的优劣,在这个准则下找到满足条件的最优模型
- 损失函数(loss function)或代价函数(cost function)
- 算法
- 学习模型的具体计算方法,也为求解最优化问题的算法
ML有监督学习&无监督学习
有监督学习基本框架:
带目标标记的训练数据 ==》学习算法(决策树、随机森林、GBDT、XGBoost、SVM)==》输入特征-------f(x)------>预测
常用有监督学习模型:
回归:线性回归、决策树、随机森林、GBDT、XGBoost回归;
分类:逻辑回归、决策树、随机森林、SVM、GBDT、朴素贝叶斯、XGBoost分类、K近邻
无监督学习:
训练集无标签,给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。
无监督学习将数据集合分成由类似的对象组成的多个类的过程被称为聚类。