Hh2767474144-优快云博客

模型评估是机器学习中的关键环节，目的是检查模型在未见过的数据上的表现，以确保其泛化能力。通过评估，可以避免过拟合（模型对训练数据过于精确）或欠拟合（模型对数据的规律无法充分学习）。机器学习是人工智能的一个分支，旨在通过经验（数据）来提高系统的性能。机器学习不依赖于显式编程，而是从数据中自动获取规律，并在此基础上进行预测或决策。机器学习的基本问题是：给定一个任务和相关数据，通过某种方法让机器从数据中学习，形成一个模型，之后使用这个模型对新数据做出预测或决策。

2024-11-13 22:53:17 1128

原创玩转HF/魔搭/魔乐社区

运行vscode网页版。

2024-10-23 22:45:17 238

原创 Python 基础知识

通过vscode进行调试。

2024-10-23 20:25:12 164

原创 Linux 基础知识

完成SSH连接与端口映射并运行。

2024-10-23 20:23:03 126

原创 Datawhale X 李宏毅苹果书 AI夏令营向李宏毅学深度学习(进阶)Task3笔记

如果误差表面很崎岖，它比较难训练。能不能直接改误差表面的地貌，“把山铲平”，让它变得比较好训练呢？批量归一化（Batch Normalization，BN）就是其中一个“把山铲平”的想法。不要小看优化这个问题，有时候就算误差表面是凸（convex）的，它就是一个碗的形状，都不一定很好训练。如图所示，假设两个参数对损失的斜率差别非常大，在 w1 这个方向上面，斜率变化很小，在 w2 这个方向上面斜率变化很大。

2024-09-02 22:29:02 1659

原创 Datawhale X 李宏毅苹果书 AI夏令营-跟李宏毅学深度学习(入门)Task3笔记

模型偏差可能会影响模型训练。举个例子，假设模型过于简单，一个有未知参数的函数代θ1 得到一个函数 fθ1(x)，同理可得到另一个函数 fθ2(x)，把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了，没有包含任何一个函数，可以让损失变低的函数不在模型可以描述的范围内。在这种情况下，就算找出了一个 θ∗，虽然它是这些蓝色的函数里面最好的一个，但损失还是不够低。这种情况就是想要在大海里面捞针（一个损失低的函数），结果针根本就不在海里。可以通过给模型更大的灵活性来克服模型偏差。

2024-09-01 20:57:07 917

原创 Datawhale X 李宏毅苹果书 AI夏令营向李宏毅学深度学习(进阶)Task2笔记

在 AB段梯度很大，但在 BC 段，纵轴的方向梯度很小，因此纵轴方向累积了很小的 σit，累积到一定程度以后，步伐就变很大，但有办法修正回来。在梯度下降里面，所有的参数都是设同样的学习率，这显然是不够的，应该要为每一个参数定制化学习率，即引入自适应学习率（adaptive learning rate）的方法，给每一个参数不同的学习率。一般的梯度下降，其实是做不到的。一般在训练一个网络的时候，损失原来很大，随着参数不断的更新，损失会越来越小，最后就卡住了，损失不再下降。学习率设的大的时候，训练时的步伐小。

2024-08-31 15:16:15 862

原创 Datawhale X 李宏毅苹果书 AI夏令营跟李宏毅学深度学习(入门) Task2笔记

把输入的特征 x 乘上一个权重，再加上一个偏置就得到预测的结果，这样的模型称为线性模型（linear model）。例如 y=w*x+b。

2024-08-30 17:17:37 1409

原创 Datawhale X 李宏毅苹果书 AI夏令营向李宏毅学深度学习(进阶)Task1笔记

有了新的参数 θ1 后，再计算一次梯度，再往梯度的反方向，再更新一次参数，到了新的位置以后再计算一次梯度，再往梯度的反方向去更新参数。虽然无法完整知道整个损失函数的样子，但是如果给定某一组参数，比如 θ′，在 θ′ 附近的损失函数是有办法写出来的——虽然 L(θ) 完整的样子写不出来。H 里面放的是 L 的二次微分，它第 i 行，第 j 列的值 HiHij 就是把 θ 的第 i 个元素对 Lθ′作微分，再把 θ 的第 j 个元素对 ∂L(θ′)∂θi 作微分后的结果，即。在临界点，梯度 g 为零，因此。

2024-08-27 17:12:24 784

原创 Datawhale X 李宏毅苹果书 AI夏令营-跟李宏毅学深度学习(入门)Task1笔记

假设模型有两个参数w,b。对w与b随便选一个初始的值，先计算一下 w 对 L 的微分，跟计算一下 b 对 L 的微分，接下来更新 w 跟 b，更新的方向就是 ∂L/∂w，乘以 η （学习率）再乘以一个负号，∂L/∂b，算出这个微分的值，就可以决定更新的方向，可以决定 w 要怎么更新。以y = b + w ∗ x1为例，特征（feature） x1 是这个函数里面已知的，而 w 跟 b 是未知的参数。根据不同的参数，计算它的损失，画出来的等高线图（w-b的相关图）称为误差表面（error surface）

2024-08-24 10:13:31 504 1

Hh2767474144的博客

原创 Chapter 1 大模型介绍与环境配置

原创对数几率回归

原创 OpenCompass 评测

原创 XTuner 微调个人小助手认知任务

原创 Llamaindex RAG 实践

原创线性回归学习笔记

原创 LangGPT结构化提示词编写实践

原创玩转书生「多模态对话」与「AI搜索」产品 - 任务

原创书生·浦语 (Informer) 大模型的全链路开源开放体系

原创概览西瓜书+南瓜书第1、2章