机器学习入门:从概念到实践的全面解析

一、什么是机器学习?

2016 年 3 月,韩国首尔上演了一场举世瞩目的 “人机大战”—— 阿尔法围棋以 4:1 的总比分战胜韩国围棋九段棋手李世石。这一事件让 “机器学习” 这一概念走进了大众视野。

那么,究竟什么是机器学习?简单来说,它是这样一个过程:处理特定任务时,以大量经验为基础,设定评判任务完成好坏的标准,通过分析经验数据让任务完成得更好。就像我们从历史经验中总结规律,再用规律预测未来一样,机器学习通过历史数据训练模型,然后用模型对未知的新数据进行预测。

二、机器学习的应用领域

机器学习的应用早已渗透到我们生活的方方面面,主要包括以下领域:

  • 模式识别:对各种事物的模式进行识别和分类。
  • 计算机视觉:让计算机 “看懂” 图像和视频,如人脸识别、图像检测等。
  • 数据挖掘:从大量数据中挖掘出有价值的信息和知识。
  • 语音识别:将人类的语音转换为文字,如手机的语音助手。
  • 自然语言处理:实现计算机与人类语言的交互,如机器翻译(Google Translate 就是典型应用)。
  • 统计学习:基于统计理论进行机器学习。

三、机器学习基本术语

  1. 数据集:数据记录的集合。比如包含多个西瓜信息的记录集合就是一个数据集。
  2. 样本:数据集中的每条记录,是对一个事件或对象的描述。例如数据集中关于某一个西瓜的记录就是一个样本。
  3. 特征(属性):反映事件或对象某方面表现或性质的事项。以西瓜为例,“色泽”“根蒂”“敲声” 等都是特征。

编号色泽根蒂敲声
1青绿蜷缩浊响
2乌黑蜷缩沉闷
3乌黑蜷缩浊响
4青绿蜷缩沉闷

  1. 属性空间(样本空间):由属性张成的空间。
  2. 向量表示:每个样本都可以用一个向量来表示。若数据集 D = {x₁, x₂, ..., xₘ} 包含 m 个示例,每个样本由 d 个属性描述,则每个样本 xᵢ = (xᵢ₁, xᵢ₂, ..., xᵢd) 是 d 维样本空间 X 中的一个向量,d 为样本 xᵢ的 “维数”。
  3. 训练集:用于训练模型的数据集合,包含标记信息。如下表是关于西瓜是否为好瓜的训练集,其中 “好瓜” 一列就是标记信息。

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
1青绿蜷缩浊响清晰凹陷硬滑0.6970.46
2乌黑蜷缩沉闷清晰凹陷硬滑0.7740.376
..............................

  1. 测试集:用于测试模型的数据集合,通常不包含标记信息,需要模型进行预测。

四、机器学习的主要类型

  1. 监督学习:利用一组已知类别的样本调整分类器参数,使其达到所需性能。其数据集由 “正确答案”(标记)组成。

    • 分类:模型输出结果为有限的离散型数值。例如判断西瓜是否为好瓜。
    • 回归:模型输出结果为某个范围内的连续型数值。例如预测房屋价格。
  2. 无监督学习:提供数据集合但不提供标记信息的学习过程。常见的无监督算法是 “聚类”,即把样本分成不同类别。比如分析交易数据,将购买习惯相似的客户聚类到一起。

  3. 集成学习:通过构建并结合多个学习器来完成学习任务,以提高学习性能。

五、模型评估与选择

  1. 评估指标

    • 错误率:分类错误的样本数占样本总数的比例。
    • 精度:1 减去错误率。
    • 残差:学习器实际预测输出与样本真实输出的差异。
    • 训练误差(经验误差):学习器在训练集上的误差。
    • 泛化误差:学习器在新样本上的误差。
    • 损失函数:衡量模型预测误差大小的函数,损失函数越小,模型越好。
  2. 模型问题

    • 欠拟合:模型未很好捕捉数据特征,因特征集过小等原因导致不能很好拟合数据,本质是对数据特征学习不够。
    • 过拟合:模型将训练数据学习得过于彻底,甚至学到噪声数据特征,导致泛化能力差,在测试时不能正确分类。
  3. 过拟合与欠拟合的处理

    • 过拟合处理:增加训练数据、降维、采用正则化技术、使用集成学习方法等。
    • 欠拟合处理:添加新特征、增加模型复杂度、减小正则化系数等。
  4. 选择模型的基本原则

    • 奥卡姆剃刀原理:“如无必要,勿增实体”,即选择能很好解释已知数据且简单的模型。
    • 没有免费的午餐(NFL):不存在对所有问题都有效的算法,谈论算法优劣需针对具体学习问题。
  5. 模型评估方法

    • 留出法:将数据集划分为训练集和测试集(通常比例 7:3),划分时要保持数据分布一致性,可采用分层采样,且可进行多次随机划分以避免不稳定性。
    • 交叉验证法:将数据集划分为 k 个相似互斥子集,每次用 k-1 个子集作为训练集,剩下的作为测试集,进行 k 次训练和测试,返回 k 个测试结果的均值,即 k 折交叉验证。
  6. 其他评估指标

    • TP(真正例):将正类预测为正类的数量。
    • FP(假正例):将反类预测为正类的数量。
    • TN(真反例):将反类预测为反类的数量。
    • FN(假反例):将正类预测为反类的数量。
    • 查准率(P):P=TP/(TP+FP)。
    • 查全率(R):R=TP/(TP+FN)。
    • P-R 图:直观显示学习器的查全率和查准率,可用于比较不同学习器性能。

机器学习是一门不断发展的学科,从基本概念到模型评估,每个环节都有其深刻的内涵和实用价值。希望通过本文,能让你对机器学习有一个初步的了解,为进一步深入学习打下基础。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值