《机器学习公式详解》Task1

本文介绍了机器学习中的基本概念,包括样本、特征工程、样本空间和数据集的定义,以及模型的构建和优化过程。讨论了分类与回归的区别,强调了泛化能力在模型性能中的重要性,并提到了数据和算法对模型效果的影响。此外,还提及了分布、假设空间和版本空间的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一章 绪论

1.1基本概念

  1. 样本:对事件或对象的描述,即将现实事物抽象成某种数学形式——计算机能够理解的形式。

  1. 特征工程:采取多维度特征来刻画样本,且能够使特征尽可能简约或数值化的特征处理过程,在这个过程中利用特征建立的模型也能够进一步优化。

  1. 样本空间:样本的特征向量所在空间,通常用花式大写表示。

  1. 数据集:通常用集合表示,集合中有多个样本,样本的表现形式为向量,向量中描述样本的特征个数一般相同。

  1. 模型:在机器学习中,数据集一般分为训练集和测试集。通过选择某种机器学习算法在训练集上进行训练,来得到一个模型,再用此模型对测试集进行测试来验证模型的效果,可以通过调整模型的参数、改变训练集和测试集的比例等方法来优化模型。

  1. 标记:一般第个样本的标记数学表示为,因此一个完整的样本通常表示为

  1. 分类:标记取值为离散型。可分为二分类和多分类。对于二分类,正类通常记为1,反类记为0,即

  1. 回归:标记取值为连续型。取值可能无法直接罗列,

  1. 泛化:根据已知来对未知做出准确判断的能力。算法和数据是影响泛化能力的关键:“数据决定模型的上限,而算法则是让模型无限逼近上限”。

  1. 数据决定模型的上限:数据量越大,累积的经验多,模型效果越好;特征数值化越合理,特征收集越全越细致,模型效果越好。

  1. 算法则是让模型无限逼近上限:不同算法得到的模型效果不同,效果越好则越逼近上限。

  1. 分布:即概率分布,通常假设样本空间服从一个未知“分布”,而收集的样本都是独立地从该分布中采样得到的,即“独立同分布”。

  1. 假设空间:对数据集建立模型假设,预测未来的发展趋势。

  1. 版本空间:一个数据集可能有多个假设空间,而不同的假设空间都有可能学得能够拟合训练集的模型,将这些模型形成集合即为“版本空间”。

1.2归纳偏好

自注意力机制是一种注意力机制,它可以更多地关注输入中的关键信息。它可以看作是multi-head attention的一种特殊情况,其中输入数据是相同的。自注意力机制的基本原理是通过计算输入序列中每个元素与整个序列的注意力权重,从而实现动态的全连接层。\[1\] 具体来说,自注意力机制可以分为多个one head attention的并行组合。每个one head attention由scale dot-product attention和三个相应的权值矩阵组成。scale dot-product attention是通过计算查询、键和值之间的点积,然后进行缩放和softmax操作来计算注意力权重。这些权重用于加权求和值,从而得到最终的输出。\[3\] 总结起来,自注意力机制通过计算输入序列中每个元素与整个序列的注意力权重,从而更好地捕捉关键信息。它是许多神经网络模型中的重要组成部分,特别是在transformer模型中应用广泛。\[1\]\[3\] #### 引用[.reference_title] - *1* *3* [自注意力(Self-Attention)与Multi-Head Attention机制详解](https://blog.youkuaiyun.com/weixin_60737527/article/details/127141542)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v4^insert_chatgpt"}} ] [.reference_item] - *2* [机器学习中的自注意力(Self Attention)机制详解](https://blog.youkuaiyun.com/qq_39438086/article/details/103107545)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v4^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Data新青年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值