一、什么是机器学习?
2016 年 3 月,韩国首尔上演了一场举世瞩目的 “人机大战”—— 阿尔法围棋以 4:1 的总比分战胜韩国围棋九段棋手李世石。这一事件让 “机器学习” 这一概念走进了大众视野。
那么,究竟什么是机器学习?简单来说,它是这样一个过程:处理特定任务时,以大量经验为基础,设定评判任务完成好坏的标准,通过分析经验数据让任务完成得更好。就像我们从历史经验中总结规律,再用规律预测未来一样,机器学习通过历史数据训练模型,然后用模型对未知的新数据进行预测。
二、机器学习的应用领域
机器学习的应用早已渗透到我们生活的方方面面,主要包括以下领域:
- 模式识别:对各种事物的模式进行识别和分类。
- 计算机视觉:让计算机 “看懂” 图像和视频,如人脸识别、图像检测等。
- 数据挖掘:从大量数据中挖掘出有价值的信息和知识。
- 语音识别:将人类的语音转换为文字,如手机的语音助手。
- 自然语言处理:实现计算机与人类语言的交互,如机器翻译(Google Translate 就是典型应用)。
- 统计学习:基于统计理论进行机器学习。
三、机器学习基本术语
- 数据集:数据记录的集合。比如包含多个西瓜信息的记录集合就是一个数据集。
- 样本:数据集中的每条记录,是对一个事件或对象的描述。例如数据集中关于某一个西瓜的记录就是一个样本。
- 特征(属性):反映事件或对象某方面表现或性质的事项。以西瓜为例,“色泽”“根蒂”“敲声” 等都是特征。
| 编号 | 色泽 | 根蒂 | 敲声 |
|---|---|---|---|
| 1 | 青绿 | 蜷缩 | 浊响 |
| 2 | 乌黑 | 蜷缩 | 沉闷 |
| 3 | 乌黑 | 蜷缩 | 浊响 |
| 4 | 青绿 | 蜷缩 | 沉闷 |
- 属性空间(样本空间):由属性张成的空间。
- 向量表示:每个样本都可以用一个向量来表示。若数据集 D = {x₁, x₂, ..., xₘ} 包含 m 个示例,每个样本由 d 个属性描述,则每个样本 xᵢ = (xᵢ₁, xᵢ₂, ..., xᵢd) 是 d 维样本空间 X 中的一个向量,d 为样本 xᵢ的 “维数”。
- 训练集:用于训练模型的数据集合,包含标记信息。如下表是关于西瓜是否为好瓜的训练集,其中 “好瓜” 一列就是标记信息。
| 编号 | 色泽 | 根蒂 | 敲声 | 纹理 | 脐部 | 触感 | 密度 | 含糖率 | 好瓜 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 青绿 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.697 | 0.46 | 是 |
| 2 | 乌黑 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 0.774 | 0.376 | 是 |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
- 测试集:用于测试模型的数据集合,通常不包含标记信息,需要模型进行预测。
四、机器学习的主要类型
-
监督学习:利用一组已知类别的样本调整分类器参数,使其达到所需性能。其数据集由 “正确答案”(标记)组成。
- 分类:模型输出结果为有限的离散型数值。例如判断西瓜是否为好瓜。
- 回归:模型输出结果为某个范围内的连续型数值。例如预测房屋价格。
-
无监督学习:提供数据集合但不提供标记信息的学习过程。常见的无监督算法是 “聚类”,即把样本分成不同类别。比如分析交易数据,将购买习惯相似的客户聚类到一起。
-
集成学习:通过构建并结合多个学习器来完成学习任务,以提高学习性能。
五、模型评估与选择
-
评估指标
- 错误率:分类错误的样本数占样本总数的比例。
- 精度:1 减去错误率。
- 残差:学习器实际预测输出与样本真实输出的差异。
- 训练误差(经验误差):学习器在训练集上的误差。
- 泛化误差:学习器在新样本上的误差。
- 损失函数:衡量模型预测误差大小的函数,损失函数越小,模型越好。
-
模型问题
- 欠拟合:模型未很好捕捉数据特征,因特征集过小等原因导致不能很好拟合数据,本质是对数据特征学习不够。
- 过拟合:模型将训练数据学习得过于彻底,甚至学到噪声数据特征,导致泛化能力差,在测试时不能正确分类。
-
过拟合与欠拟合的处理
- 过拟合处理:增加训练数据、降维、采用正则化技术、使用集成学习方法等。
- 欠拟合处理:添加新特征、增加模型复杂度、减小正则化系数等。
-
选择模型的基本原则
- 奥卡姆剃刀原理:“如无必要,勿增实体”,即选择能很好解释已知数据且简单的模型。
- 没有免费的午餐(NFL):不存在对所有问题都有效的算法,谈论算法优劣需针对具体学习问题。
-
模型评估方法
- 留出法:将数据集划分为训练集和测试集(通常比例 7:3),划分时要保持数据分布一致性,可采用分层采样,且可进行多次随机划分以避免不稳定性。
- 交叉验证法:将数据集划分为 k 个相似互斥子集,每次用 k-1 个子集作为训练集,剩下的作为测试集,进行 k 次训练和测试,返回 k 个测试结果的均值,即 k 折交叉验证。
-
其他评估指标
- TP(真正例):将正类预测为正类的数量。
- FP(假正例):将反类预测为正类的数量。
- TN(真反例):将反类预测为反类的数量。
- FN(假反例):将正类预测为反类的数量。
- 查准率(P):P=TP/(TP+FP)。
- 查全率(R):R=TP/(TP+FN)。
- P-R 图:直观显示学习器的查全率和查准率,可用于比较不同学习器性能。
机器学习是一门不断发展的学科,从基本概念到模型评估,每个环节都有其深刻的内涵和实用价值。希望通过本文,能让你对机器学习有一个初步的了解,为进一步深入学习打下基础。
2005

被折叠的 条评论
为什么被折叠?



