- 博客(19)
- 收藏
- 关注
原创 Chapter 1 大模型介绍与环境配置
大模型属于自然语言处理(NLP),NLP又包含在深度学习中。传统的NLP只适用于某一具体的领域,且需要在特定的任务上进行微调。大模型是一种通用的模型,可以适用于很多不同的任务,通过提示词解决各种任务。大模型的参数量远远超过传统NLP。
2025-09-15 09:58:55
266
原创 对数几率回归
对数几率回归(Logistic Regression)是一种用于解决分类问题的经典统计模型,其核心思想是利用逻辑函数(Sigmoid函数)将线性回归模型的输出值映射到概率范围 [0, 1],从而实现分类预测。对数几率回归特别适合用于二分类问题。
2024-11-19 19:33:46
854
1
原创 线性回归学习笔记
线性回归是一种基本的监督学习算法,用于解决回归问题。它通过拟合数据点,找出特征与目标变量之间的线性关系。其目标是预测连续数值输出。
2024-11-16 23:24:51
1169
原创 书生·浦语 (Informer) 大模型的全链路开源开放体系
此笔记总结了书生·浦语大模型的技术发展、数据策略、技术栈、生态系统以及社区支持。Informer项目不仅展示了强大的技术实力,还积极构建了一个开放的社区环境,为未来AI模型的开发者提供了丰富的资源和广阔的应用前景。
2024-11-14 11:10:13
573
原创 概览西瓜书+南瓜书第1、2章
模型评估是机器学习中的关键环节,目的是检查模型在未见过的数据上的表现,以确保其泛化能力。通过评估,可以避免过拟合(模型对训练数据过于精确)或欠拟合(模型对数据的规律无法充分学习)。机器学习是人工智能的一个分支,旨在通过经验(数据)来提高系统的性能。机器学习不依赖于显式编程,而是从数据中自动获取规律,并在此基础上进行预测或决策。机器学习的基本问题是:给定一个任务和相关数据,通过某种方法让机器从数据中学习,形成一个模型,之后使用这个模型对新数据做出预测或决策。
2024-11-13 22:53:17
1128
原创 Datawhale X 李宏毅苹果书 AI夏令营 向李宏毅学深度学习(进阶)Task3笔记
如果误差表面很崎岖,它比较难训练。能不能直接改误差表面的地貌,“把山铲平”,让它变得比较好训练呢?批量归一化(Batch Normalization,BN)就是其中一个“把山铲平”的想法。不要小看优化这个问题,有时候就算误差表面是凸(convex)的,它就是一个碗的形状,都不一定很好训练。如图所示,假设两个参数对损失的斜率差别非常大,在 w1 这个方向上面,斜率变化很小,在 w2 这个方向上面斜率变化很大。
2024-09-02 22:29:02
1659
原创 Datawhale X 李宏毅苹果书 AI夏令营-跟李宏毅学深度学习(入门)Task3笔记
模型偏差可能会影响模型训练。举个例子,假设模型过于简单,一个有未知参数的函数代θ1 得到一个函数 fθ1(x),同理可得到另一个函数 fθ2(x),把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了,没有包含任何一个函数,可以让损失变低的函数不在模型可以描述的范围内。在这种情况下,就算找出了一个 θ∗,虽然它是这些蓝色的函数里面最好的一个,但损失还是不够低。这种情况就是想要在大海里面捞针(一个损失低的函数),结果针根本就不在海里。可以通过给模型更大的灵活性来克服模型偏差。
2024-09-01 20:57:07
917
原创 Datawhale X 李宏毅苹果书 AI夏令营 向李宏毅学深度学习(进阶)Task2笔记
在 AB段梯度很大,但在 BC 段,纵轴的方向梯度很小,因此纵轴方向累积了很小的 σit,累积到一定程度以后,步伐就变很大,但有办法修正回来。在梯度下降里面,所有的参数都是设同样的学习率,这显然是不够的,应该要为每一个参数定制化学习率,即引入自适应学习率(adaptive learning rate)的方法,给每一个参数不同的学习率。一般的梯度下降,其实是做不到的。一般在训练一个网络的时候,损失原来很大,随着参数不断的更新,损失会越来越小,最后就卡住了,损失不再下降。学习率设的大的时候,训练时的步伐小。
2024-08-31 15:16:15
862
原创 Datawhale X 李宏毅苹果书 AI夏令营 跟李宏毅学深度学习(入门) Task2笔记
把输入的特征 x 乘上一个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型(linear model)。例如 y=w*x+b。
2024-08-30 17:17:37
1409
原创 Datawhale X 李宏毅苹果书 AI夏令营 向李宏毅学深度学习(进阶)Task1笔记
有了新的参数 θ1 后,再计算一次梯度,再往梯度的反方向,再更新一次参数,到了新的位置以后再计算一次梯度,再往 梯度的反方向去更新参数。虽然无法完整知道整个损失函数的样子,但是如果给定某一组参数,比如 θ′,在 θ′ 附近的损失函数是有办法写出来的——虽然 L(θ) 完整的样子写不出来。H 里面放的是 L 的二次微分,它第 i 行,第 j 列的值 HiHij 就是把 θ 的第 i 个元素对 Lθ′作微分,再把 θ 的第 j 个元素对 ∂L(θ′)∂θi 作微分后的结果,即。在临界点,梯度 g 为零,因此。
2024-08-27 17:12:24
784
原创 Datawhale X 李宏毅苹果书 AI夏令营-跟李宏毅学深度学习(入门)Task1笔记
假设模型有两个参数w,b。对w与b随便选一个初始的值,先计算一下 w 对 L 的微分,跟计算一下 b 对 L 的微分,接下来更新 w 跟 b,更新的方向就是 ∂L/∂w,乘以 η (学习率)再乘以一个负号,∂L/∂b,算出这个微分的值,就可以决定更新的方向,可以决定 w 要怎么更新。以y = b + w ∗ x1为例,特征(feature) x1 是这个函数里面已知的,而 w 跟 b 是未知的参数。根据不同的参数,计算它的损失,画出来的等高线图(w-b的相关图)称为误差表面(error surface)
2024-08-24 10:13:31
504
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅