【书籍阅读】DeepLearning----第五章-机器学习基础

本文介绍了常见的机器学习任务,包括分类、回归、转录、机器翻译等,并详细阐述了结构化输出、异常检测、缺失值填补等特殊任务。此外,还讨论了无监督学习中的低维、稀疏和独立表示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

常见的机器学习任务
分类
学习算法通常会返回一个函数f:Rn{1...k}f:Rn→{1,...,k}。模型返回的是指定数字码y所代表的的类别或者不同类别的概率分布
输入缺失分类
分类任务是学习一个从输入向量映射到输出类别的函数。当一些输入缺失时,学习算法需要学习一组函数,从 nn 个输入变量,学习所有 2n 个不同的函数。但计算机仅需要学习一个描述联合概率分布的函数。
回归
回归和分类的区别在于输出变量的类型(连续还是离散)。
转录
这类任务中,机器学习系统观测一些相对非结构化表示的数据,并转录信息为离散的文本形式。例如,根据文本图片(语音音频)返回文字序列。
机器翻译
这类任务中,输入是一种语言的符号序列,模型将其转化为另一种语言的符号序列。这通常适用于自然语言。
结构化输出
这类任务中,输出是不同元素之间重要关系的向量(或者是含多个值的其他数据结构)的任务。例如图像的像素级分割,将每一个像素分配到特定类别;例如标注航拍照中的道路位置。这种任务被称为结构化输出任务是因为输出值之间内部紧密相关。例如图片标题(观察图片,输出描述这幅图的自然语言句子)程序输出的单词必须组合成一个通顺的句子。
异常检测
这类任务中,计算机程序在一组事件或对象中筛选,并标注不正常或非典型的个体。异常检测任务的一个例子是信用卡欺诈检测:通过对你的购买习惯建模,信用卡公司可以检测到你的卡是否被滥用。
缺失值填补
这类算法中,给定一个新样本 xRnx∈Rnxx 中某些元素 xi 缺失,算法必须填补这些缺失值。

容量:模型的容量,指的是模型拟合各种函数的能力。容量低的模型可能很难拟合训练集。容量高的模型可能会出现过拟合现象。

奥卡姆剃刀(简约原则):在同样能够解释已知观测现象的假设中,我们应该选择“最简单”的那一个(容量最低)。

偏差:度量偏离真实函数或参数的误差期望
方差:度量数据上任意特定采样可能导致的估计期望的偏差

无监督学习算法

  一个经典的无监督学习任务是找到数据的“最佳”表示。“最佳”可以是不同的表示,但是一般来说,是指该表示在比本事表示的信息更简单或更易访问而受到一些惩罚或限制的情况下,尽可能保存关于 xx 更多的信息。常见的三种表示:

    低维表示
较低维度的表示通常会产生比原始数据具有较少或较弱依赖关系的元素。(消除冗余)
    稀疏表示
更高维但大多数为 0 的表示,这使得表示的整体结构倾向于将数据分布在表示空间的坐标轴上。

  • 独立表示
独立表示试图揭开数据分布中变动的来源,使得表示的维度是统计独立的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值