机器学习——机器学习概述
相关词汇:
有监督学习、无监督学习、半监督学习、强化学习
增量学习、在线学习(核外学习)、批量学习
基于实例学习、基于模型学习、相似度
训练集、标签、预测器、特征
降维、智能化
自动化、训练、评估、启动学习
学习率、噪声(非代表性数据被选中)、适用度函数、成本函数
拟合训练、研究数据、选择模型、训练(成本函数最小化)、预测推断
坏算法、坏数据
采样偏差、无反应偏差
低质量数据、无关特征
特征工程:特征选择、特征提取、创建新特征
过拟合训练(训练数据数量大、噪度复杂):简化模型、收集更多训练数据、减少噪声
正则化:约束模型、降低过拟合
超参数
欠拟合:模型太过简单
评估、训练集、测试集、泛化误差
保持验证、验证集合
1 什么是机器学习
机器学习是一门通过编程让计算机从数据中进行学习的科学。
机器学习是一个研究领域,让计算机无须进行明确编程就具备学习能力。 ——亚瑟·萨缪尔
一个计算机程序利用经验E来学习任务T,性能是P,如果针对任务T的性能P能随着经验E不断增长,则称为机器学习。 —— 汤姆·米切尔
2 为什么使用机器学习
机器学习可以快速解决以下问题:
- 有解决方案(但解决方案需要大量人工微调或需要遵循大量规则)的问题:机器学习算法通常可以简化代码,相比传统该方法有更好的性能。
- 传统方法难以解决的复杂问题:最好的机器学习技术也许可以找到解决方案。
- 环境有波动:机器学习算法可以适应新的数据。
- 洞察复杂问题和大量数据。
3 常用术语和示例
- 分析生产线上的产品图像来对产品进行自动分类。——这是图像分类问题,使用卷积神经网络(CNN)
- 通过脑部扫描发现肿瘤。——这是语义分割,图像中的每个像素都需要被分类,也是用CNN。
- 自动分类新闻。——这是自然语言处理(NLP),更具体的是文本分类,可以使用循环神经网络(RNN)、CNN、或者 Transformer。
- 论坛中自动标记恶评。——文本分类,使用相同的自然语言处理工具。
- 自动对长文章做总结。——这是自然语言处理的一个分支,叫做文本总结,使用的是相同的工具。
- 创建一个聊天机器人或者个人助理。——这个涉及到自然语言处理的很多分支,包括自然语言理解