机器学习_小白顶呱呱的博客-优快云博客

机器学习

关注

文章平均质量分 75

关注数：文章数：23 文章阅读量：27955 文章收藏量：307

作者: 小白顶呱呱

在校科研民工(黑奴不是、)

展开

llamafactory报错TypeError: GenerationMixin._extract_past_from_model_output() got an unexpected keyword

安装即可。ps：如果还有其它问题可以尝试安装4.43.3版本的transformers。

原创 2024-09-30 09:39:22 · 1734 阅读 · 0 评论
基于阿里云免费部署Qwen1-8B-chat模型并进行lora参数微调从0到1上手操作

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。

原创 2024-09-19 17:07:58 · 2378 阅读 · 0 评论
基于阿里云PAI部署LLaMA Factory启动 Web UI时报错Error Connection errored out解决

在进行该操作时报错：Error Connection errored out，如下图。

原创 2024-09-05 11:43:42 · 1101 阅读 · 0 评论
从0学习LLaMaFactory参数解释说明（webui的gradio界面详细一对一配置讲解，简洁入门版）

上述写的很详细，大家可以看看，我也是学习后的笔记~不断更新完善ing ~~~

原创 2025-01-14 11:13:50 · 1815 阅读 · 0 评论
基于阿里云部署ChatGLM3-6b从0到1上手操作——解决webui启动chatglm中报错ERROR问题

否则后面必定会报错，提示版本老旧等问题。有2个文件需要修改变量路径，一个是basic_demo下的“web_demo_gradio.py”，另一个是chatgm3-6b下的“config.json”，都是把默认的“THUDM/”修改为“/mnt/workspace/ChatGLM3/”这里使用的是阿里云的PAI，默认已经帮我们配置好了环境变量、网络等等，这里我们直接启动->打开我们创建的实例，点击terminal进入，后面的步骤主要就是参考github上的GLM官方步骤了。点击确定，完成实例创建。

原创 2024-09-10 17:01:16 · 934 阅读 · 0 评论
Epochs VS batch size VS steps关系计算

训练的轮数变为3，这意味着模型将用这6,668个样本进行3轮训练。每个设备的批量大小减小到2。总的训练批次大小（分布式训练下的批量大小）为4。在评估阶段，批量大小为2。这与训练时每个设备的批量大小一致，说明评估过程也按照较小的批。仍然保持梯度累积步数为2，意味着每累积2个批次的梯度后，才会进行一次梯度更新。总的优化步数为5,001。是1,667 * 3 = 5,001步（与总优化步数一致）。模型的可训练参数数目仍然是14,823,424。训练数据的样本数仍然是6,668。配到多个设备上，总批量大小为4。

原创 2025-01-15 09:34:48 · 710 阅读 · 0 评论
windows从0开始配置ollama并在局域网下使用langchain远程访问

等待浏览器下载文件 OllamaSetup.exe，完成后双击该文件，出现如下弹窗，点击 Install 等待下载完成即可。然后，如果需要使用另一台电脑在局域网下使用langchain远程访问，那还需要配置必不可少的。点击上图“环境变量”，进入设置界面，界面上方用户的变量，只对当前系统登录的账户起效，选择。，对系统的所有账户生效，您可以根据情况自己选。点击添加添加，输入变量名。，变量值输入您放置ollama模型的新地址，我这里放在了。，便可以下载对应的模型和进行对话了~，同上述办法，变量值配置为。

原创 2025-02-26 14:57:58 · 2594 阅读 · 0 评论
windows系统从0开始配置llamafactory微调chatglm3-6b（环境版本、数据配置、webui、命令行）

我这里使用的是pytorch=2.0.1，CUDA=11.8（我机器的CUDA为12.5，具体可以看下一篇：从0学习LLaMaFactory参数解释说明（还在写，请等我更新。下面三行命令分别对 Llama3-8B-Instruct 模型进行 LoRA。可以在pycharm中打开整个文件夹为一个项目，根据。进行安装llamafactory，其实就一步很简单。在上面启动的虚拟环境和项目地址的路径（第一步，将我们准备的数据添加到。这里下载下来整个文件名应该是。出现success成功安装。

原创 2025-01-07 16:26:17 · 1004 阅读 · 0 评论
chatglm本地服务器大模型量化cpu INT4 INT8 half float运行、多卡多GPU运行改这一条指令就行啦！

ChatGLM3常规方案的GPU推演中half和float是两种最常用的格式，half格式占13GB显存，float格式占40GB显存。此外还提供了几种GPU量化格式的推演：INT4和INT8量化。INT4版本的ChatGLM3推演：(不是所有的硬件都支持INT4操作)

原创 2024-09-27 17:09:31 · 449 阅读 · 0 评论
window下使用命令行启动llamafactory报错AttributeError: can‘t set attribute

【代码】window下使用命令行启动llamafactory报错AttributeError: can‘t set attribute。

原创 2024-10-14 14:56:52 · 599 阅读 · 0 评论
pycharm24.2运行框中无法输入中文但是可以粘贴中文、输入英文、数字

去pycharm官网下载任意一个历史版本即可，比如pycharm24.1就无此问题。该问题为pycharm24.2版本问题。输入英文、数字没有问题。

原创 2024-09-26 15:00:44 · 2568 阅读 · 2 评论
图解【提示工程 VS 微调 VS RAG、全量微调 VS LoRA微调、TopK VS TopP】截图笔记

RAG实战中难以解决的问题点： 1. 如何读取文档 2. 如何分块 3. 如何进行词嵌入编码成向量的形式

原创 2025-02-20 10:04:46 · 294 阅读 · 0 评论
大模型基础知识快问快答

回答：大模型通常指的是参数数量巨大的深度学习模型，如GPT系列。它们与传统模型的主要区别在于规模：大模型拥有更多的参数和更复杂的结构，从而能够处理更复杂、更广泛的任务。此外，大模型通常需要更多的数据和计算资源进行训练和推理。

原创 2025-02-18 10:30:44 · 611 阅读 · 0 评论
cuda常用命令、国内镜像源、项目依赖requirements.txt打包、安装

milk milk 妙不可言！

原创 2024-11-05 11:07:20 · 575 阅读 · 0 评论
0基础入门模型训练 ——【完整的模型训练套路】神经网络计算，tensorboard展示计算train_loss、test_loss、test_accuracy

本次模型训练采用CIFAR10数据集，数据集中一共有 50000 张训练图片和 10000 张测试图片，尺寸为 32×32。

原创 2024-07-23 14:05:32 · 394 阅读 · 0 评论
激活函数——Sigmoid、tanh、ReLU、softmax激活函数

Sigmoid函数的图形是一个S形曲线，也称为逻辑曲线。当输入值 𝑥 非常大时，函数输出趋近于1；当输入值 𝑥 非常小时，函数输出趋近于0。当 𝑥 接近0时，函数的输出约为0.5。给定元素 x ，ReLU函数被定义为该元素与 0 对比中的最大值。在二分类任务时，经常使用sigmoid激活函数。而在处理多分类问题的时候，需要使用softmax函数。它的输出有两条规则。ReLU函数通过将相应的活性值设为0，仅保留正元素并丢弃所有负元素。如下为ReLU函数的曲线图。σ(x) 是Sigmoid函数的输出。

原创 2024-07-26 10:20:29 · 1323 阅读 · 0 评论
python中的_xx、_ _xx、_ _xx_ _和__init__()、__new__()、__str__()、__del__()、__call__()等方法详解

_xxx "单下划线 " 开始的成员变量叫做保护变量，意思是只有类实例和子类实例能访问到这些变量，需通过类提供的接口进行访问；*不能用’frommodule import '导入。_ _xxx 类中的私有变量/方法名（Python的函数也是对象，所以成员方法称为成员变量也行得通。）," 双下划线 " 开始的是私有成员，意思是只有类对象自己能访问，连子类对象也不能访问到这个数据。“_ xxx _ ”系统定义名字，前后均有一个“双下划线”，代表python里特殊方法专用的标识，如 “_ _init

原创 2024-07-31 09:28:32 · 784 阅读 · 0 评论
NLP经典论文阅读——Transformer、BERT、LSTM、Elmo

论文提取链接：链接: https://pan.baidu.com/s/1iN1SAjXCqqpycCtlp-ugrw 提取码: 6p5c。–来自百度网盘超级会员v6的分享。

原创 2024-07-19 14:16:04 · 322 阅读 · 0 评论
监督学习、无监督学习、半监督学习、弱监督学习、强化学习和主动学习

弱监督学习通常指的是训练数据的标签质量不完全可靠，可能是不准确的、噪声较多的或是不完全的。例如，利用搜索引擎的结果为图像自动标注标签，这些标签可能不完全准确。

原创 2024-08-01 14:15:12 · 5018 阅读 · 0 评论
一个最简单的模型验证套路——验证训练好的模型【附完整代码】

在这里将模型验证过程包裹在with torch.no_grad()中，在这个上下文中，所有操作都不会追踪梯度，即不会计算梯度信息，这有助于加快计算速度并减少内存使用。同理，本文采用的 CIFAR10数据集中的图像数据大小为 32×32 ，所以我们这里也需要将图像处理成 32×32 的大小并将图像转换为张量的形式。任意加载一张照片（上文模型训练CIFAR10数据集中十个分类中的一种，我这里加载的是修勾~）。这里由于我加载的是PNG图片，PNG图片为RGBA四个颜色通道，这里需要将他转换为RGB色彩。

原创 2024-08-02 09:16:45 · 551 阅读 · 0 评论
准确率、精确率、召回率、F1-score 概念、计算原理

TP（True Positives)：真正例，即正例预测为真（预测为正例而且实际上也是正例）；FP（False Positives)：假正例，即负例预测为真（预测为正例然而实际上却是负例）；FN（false Negatives)：假负例，即正例预测为假（预测为负例然而实际上却是正例）；TN（True Negatives)：真负例，即负例预测为假（预测为负例而且实际上也是负例）。

原创 2024-07-25 09:55:39 · 1323 阅读 · 0 评论
梯度下降概念图解——BGD批量梯度下降、SGD随机梯度下降、MBGD小批量梯度下降

求所有点误差的平均值：（其中x,y和样本数n都是已知数，用常量a,b.c分别代替）对于这个图来说：点p1的均方误差e1就为：e1=(y1-w*x1)^2。表示了学习所需要付出的代价，该函数也是样本点拟合过程的映射（如下图）。拓展到计算每一个点就可以算出无数的e1,e2,e2…SGD随机梯度下降，每下降一步只需要用一个样本进行计算。loss function: 得出的误差函数。BGD批量梯度下降是梯度下降最原始的方式，）重复直至找到最低点。

原创 2024-08-07 13:52:02 · 471 阅读 · 0 评论
动手深度学习基础知识——张量、点积、Hadamard积

张量乘以或加上一个标量不会改变张量的形状，其中张量的每个元素都将与标量相加或相乘。给定两个向量X,Y，它们的点积（dot product）是相同位置按元素乘积的和。(Hadamard product)(数学符号见下图)。张量是描述具有任意数量轴的n维数组的通用方法。，其中第i行和第j列的元素是bij。两个矩阵的按元素乘法称为。(在1加法中定义)和。

原创 2024-08-08 14:23:20 · 414 阅读 · 0 评论

Yaki_Duck的博客

机器学习

作者: 小白顶呱呱

llamafactory报错TypeError: GenerationMixin._extract_past_from_model_output() got an unexpected keyword

基于阿里云免费部署Qwen1-8B-chat模型并进行lora参数微调从0到1上手操作

基于阿里云PAI部署LLaMA Factory启动 Web UI时报错Error Connection errored out解决

从0学习LLaMaFactory参数解释说明（webui的gradio界面详细一对一配置讲解，简洁入门版）

基于阿里云部署ChatGLM3-6b从0到1上手操作——解决webui启动chatglm中报错ERROR问题

Epochs VS batch size VS steps关系计算

windows从0开始配置ollama并在局域网下使用langchain远程访问

windows系统从0开始配置llamafactory微调chatglm3-6b（环境版本、数据配置、webui、命令行）

chatglm本地服务器大模型量化cpu INT4 INT8 half float运行、多卡多GPU运行改这一条指令就行啦！

window下使用命令行启动llamafactory报错AttributeError: can‘t set attribute

pycharm24.2运行框中无法输入中文但是可以粘贴中文、输入英文、数字

图解【提示工程 VS 微调 VS RAG、全量微调 VS LoRA微调、TopK VS TopP】截图笔记

大模型基础知识快问快答

cuda常用命令、国内镜像源、项目依赖requirements.txt打包、安装

0基础入门模型训练 ——【完整的模型训练套路】神经网络计算，tensorboard展示计算train_loss、test_loss、test_accuracy

激活函数——Sigmoid、tanh、ReLU、softmax激活函数

python中的_xx、_ _xx、_ _xx_ _和init()、new()、str()、del()、call()等方法详解

NLP经典论文阅读——Transformer、BERT、LSTM、Elmo

监督学习、无监督学习、半监督学习、弱监督学习、强化学习和主动学习

一个最简单的模型验证套路——验证训练好的模型【附完整代码】

准确率、精确率、召回率、F1-score 概念、计算原理

梯度下降概念图解——BGD批量梯度下降、SGD随机梯度下降、MBGD小批量梯度下降

动手深度学习基础知识——张量、点积、Hadamard积

机器学习

作者: 小白顶呱呱

llamafactory报错TypeError: GenerationMixin._extract_past_from_model_output() got an unexpected keyword

基于阿里云免费部署Qwen1-8B-chat模型并进行lora参数微调从0到1上手操作

基于阿里云PAI部署LLaMA Factory启动 Web UI时报错Error Connection errored out解决

从0学习LLaMaFactory参数解释说明（webui的gradio界面详细一对一配置讲解，简洁入门版）

基于阿里云部署ChatGLM3-6b从0到1上手操作——解决webui启动chatglm中报错ERROR问题

Epochs VS batch size VS steps关系计算

windows从0开始配置ollama并在局域网下使用langchain远程访问

windows系统从0开始配置llamafactory微调chatglm3-6b（环境版本、数据配置、webui、命令行）

chatglm本地服务器大模型量化cpu INT4 INT8 half float运行、多卡多GPU运行改这一条指令就行啦！

window下使用命令行启动llamafactory报错AttributeError: can‘t set attribute

pycharm24.2运行框中无法输入中文但是可以粘贴中文、输入英文、数字

图解【提示工程 VS 微调 VS RAG、全量微调 VS LoRA微调、TopK VS TopP】截图笔记

大模型基础知识快问快答

cuda常用命令、国内镜像源、项目依赖requirements.txt打包、安装

0基础入门模型训练 ——【完整的模型训练套路】神经网络计算，tensorboard展示计算train_loss、test_loss、test_accuracy

激活函数——Sigmoid、tanh、ReLU、softmax激活函数

python中的_xx、_ _xx、_ _xx_ _和__init__()、__new__()、__str__()、__del__()、__call__()等方法详解

NLP经典论文阅读——Transformer、BERT、LSTM、Elmo

监督学习、无监督学习、半监督学习、弱监督学习、强化学习 和 主动学习

一个最简单的模型验证套路——验证训练好的模型【附完整代码】

准确率、精确率、召回率、F1-score 概念、计算原理

梯度下降概念图解——BGD批量梯度下降、SGD随机梯度下降、MBGD小批量梯度下降

动手深度学习基础知识——张量、点积、Hadamard积

python中的_xx、_ _xx、_ _xx_ _和init()、new()、str()、del()、call()等方法详解

监督学习、无监督学习、半监督学习、弱监督学习、强化学习和主动学习