
机器学习
文章平均质量分 75
小白顶呱呱
在校科研民工(黑奴不是、)
展开
-
llamafactory报错TypeError: GenerationMixin._extract_past_from_model_output() got an unexpected keyword
安装即可。ps: 如果还有其它问题可以尝试安装4.43.3版本的transformers。原创 2024-09-30 09:39:22 · 1734 阅读 · 0 评论 -
基于阿里云免费部署Qwen1-8B-chat模型并进行lora参数微调从0到1上手操作
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档。原创 2024-09-19 17:07:58 · 2378 阅读 · 0 评论 -
基于阿里云PAI部署LLaMA Factory启动 Web UI时报错Error Connection errored out解决
在进行该操作时报错:Error Connection errored out,如下图。原创 2024-09-05 11:43:42 · 1101 阅读 · 0 评论 -
从0学习LLaMaFactory参数解释说明(webui的gradio界面详细一对一配置讲解,简洁入门版)
上述写的很详细,大家可以看看,我也是学习后的笔记~不断更新完善ing ~~~原创 2025-01-14 11:13:50 · 1815 阅读 · 0 评论 -
基于阿里云部署ChatGLM3-6b从0到1上手操作——解决webui启动chatglm中报错ERROR问题
否则后面必定会报错,提示版本老旧等问题。有2个文件需要修改变量路径,一个是basic_demo下的“web_demo_gradio.py”,另一个是chatgm3-6b下的“config.json”,都是把默认的“THUDM/”修改为“/mnt/workspace/ChatGLM3/”这里使用的是阿里云的PAI,默认已经帮我们配置好了环境变量、网络等等,这里我们直接启动->打开我们创建的实例,点击terminal进入,后面的步骤主要就是参考github上的GLM官方步骤了。点击确定,完成实例创建。原创 2024-09-10 17:01:16 · 934 阅读 · 0 评论 -
Epochs VS batch size VS steps关系计算
训练的轮数变为3,这意味着模型将用这6,668个样本进行3轮训练。每个设备的批量大小减小到2。总的训练批次大小(分布式训练下的批量大小)为4。在评估阶段,批量大小为2。这与训练时每个设备的批量大小一致,说明评估过程也按照较小的批。仍然保持梯度累积步数为2,意味着每累积2个批次的梯度后,才会进行一次梯度更新。总的优化步数为5,001。是1,667 * 3 = 5,001步(与总优化步数一致)。模型的可训练参数数目仍然是14,823,424。训练数据的样本数仍然是6,668。配到多个设备上,总批量大小为4。原创 2025-01-15 09:34:48 · 710 阅读 · 0 评论 -
windows从0开始配置ollama并在局域网下使用langchain远程访问
等待浏览器下载文件 OllamaSetup.exe,完成后双击该文件,出现如下弹窗,点击 Install 等待下载完成即可。然后,如果需要使用另一台电脑在局域网下使用langchain远程访问,那还需要配置必不可少的。点击上图“环境变量”,进入设置界面,界面上方用户的变量,只对当前系统登录的账户起效,选择。,对系统的所有账户生效,您可以根据情况自己选。点击添加添加,输入变量名。,变量值输入您放置ollama模型的新地址,我这里放在了。,便可以下载对应的模型和进行对话了~,同上述办法,变量值配置为。原创 2025-02-26 14:57:58 · 2594 阅读 · 0 评论 -
windows系统从0开始配置llamafactory微调chatglm3-6b(环境版本、数据配置、webui、命令行)
我这里使用的是pytorch=2.0.1,CUDA=11.8(我机器的CUDA为12.5,具体可以看下一篇:从0学习LLaMaFactory参数解释说明(还在写,请等我更新。下面三行命令分别对 Llama3-8B-Instruct 模型进行 LoRA。可以在pycharm中打开整个文件夹为一个项目,根据。进行安装llamafactory,其实就一步很简单。在上面启动的虚拟环境和项目地址的路径(第一步,将我们准备的数据添加到。这里下载下来整个文件名应该是。出现success成功安装。原创 2025-01-07 16:26:17 · 1004 阅读 · 0 评论 -
chatglm本地服务器大模型量化cpu INT4 INT8 half float运行、多卡多GPU运行改这一条指令就行啦!
ChatGLM3常规方案的GPU推演中half和float是两种最常用的格式,half格式占13GB显存,float格式占40GB显存。此外还提供了几种GPU量化格式的推演:INT4和INT8量化。INT4版本的ChatGLM3推演:(不是所有的硬件都支持INT4操作)原创 2024-09-27 17:09:31 · 449 阅读 · 0 评论 -
window下使用命令行启动llamafactory报错AttributeError: can‘t set attribute
【代码】window下使用命令行启动llamafactory报错AttributeError: can‘t set attribute。原创 2024-10-14 14:56:52 · 599 阅读 · 0 评论 -
pycharm24.2运行框中无法输入中文但是可以粘贴中文、输入英文、数字
去pycharm官网下载任意一个历史版本即可,比如pycharm24.1就无此问题。该问题为pycharm24.2版本问题。输入英文、数字没有问题。原创 2024-09-26 15:00:44 · 2568 阅读 · 2 评论 -
图解【提示工程 VS 微调 VS RAG、全量微调 VS LoRA微调、TopK VS TopP】截图笔记
RAG实战中难以解决的问题点: 1. 如何读取文档 2. 如何分块 3. 如何进行词嵌入编码成向量的形式原创 2025-02-20 10:04:46 · 294 阅读 · 0 评论 -
大模型基础知识快问快答
回答:大模型通常指的是参数数量巨大的深度学习模型,如GPT系列。它们与传统模型的主要区别在于规模:大模型拥有更多的参数和更复杂的结构,从而能够处理更复杂、更广泛的任务。此外,大模型通常需要更多的数据和计算资源进行训练和推理。原创 2025-02-18 10:30:44 · 611 阅读 · 0 评论 -
cuda常用命令、国内镜像源、项目依赖requirements.txt打包、安装
milk milk 妙不可言!原创 2024-11-05 11:07:20 · 575 阅读 · 0 评论 -
0基础入门模型训练 ——【完整的模型训练套路】神经网络计算,tensorboard展示计算train_loss、test_loss、test_accuracy
本次模型训练采用CIFAR10数据集 ,数据集中一共有 50000 张训练图片和 10000 张测试图片,尺寸为 32×32。原创 2024-07-23 14:05:32 · 394 阅读 · 0 评论 -
激活函数——Sigmoid、tanh、ReLU、softmax激活函数
Sigmoid函数的图形是一个S形曲线,也称为逻辑曲线。当输入值 𝑥 非常大时,函数输出趋近于1;当输入值 𝑥 非常小时,函数输出趋近于0。当 𝑥 接近0时,函数的输出约为0.5。给定元素 x ,ReLU函数被定义为该元素与 0 对比中的最大值。在二分类任务时,经常使用sigmoid激活函数。而在处理多分类问题的时候,需要使用softmax函数。它的输出有两条规则。ReLU函数通过将相应的活性值设为0,仅保留正元素并丢弃所有负元素。如下为ReLU函数的曲线图。σ(x) 是Sigmoid函数的输出。原创 2024-07-26 10:20:29 · 1323 阅读 · 0 评论 -
python中的_xx、_ _xx、_ _xx_ _和__init__()、__new__()、__str__()、__del__()、__call__()等方法详解
_xxx "单下划线 " 开始的成员变量叫做保护变量,意思是只有类实例和子类实例能访问到这些变量,需通过类提供的接口进行访问;*不能用’frommodule import '导入。_ _xxx 类中的私有变量/方法名 (Python的函数也是对象,所以成员方法称为成员变量也行得通。)," 双下划线 " 开始的是私有成员,意思是只有类对象自己能访问,连子类对象也不能访问到这个数据。“_ xxx _ ”系统定义名字,前后均有一个“双下划线”, 代表python里特殊方法专用的标识,如 “_ _init原创 2024-07-31 09:28:32 · 784 阅读 · 0 评论 -
NLP经典论文阅读——Transformer、BERT、LSTM、Elmo
论文提取链接:链接: https://pan.baidu.com/s/1iN1SAjXCqqpycCtlp-ugrw 提取码: 6p5c。–来自百度网盘超级会员v6的分享。原创 2024-07-19 14:16:04 · 322 阅读 · 0 评论 -
监督学习、无监督学习、半监督学习、弱监督学习、强化学习 和 主动学习
弱监督学习通常指的是训练数据的标签质量不完全可靠,可能是不准确的、噪声较多的或是不完全的。例如,利用搜索引擎的结果为图像自动标注标签,这些标签可能不完全准确。原创 2024-08-01 14:15:12 · 5018 阅读 · 0 评论 -
一个最简单的模型验证套路——验证训练好的模型【附完整代码】
在这里将模型验证过程包裹在with torch.no_grad()中,在这个上下文中,所有操作都不会追踪梯度,即不会计算梯度信息,这有助于加快计算速度并减少内存使用。同理,本文采用的 CIFAR10数据集 中的图像数据大小为 32×32 ,所以我们这里也需要将图像处理成 32×32 的大小并将图像转换为张量的形式。任意加载一张照片 (上文模型训练CIFAR10数据集中十个分类中的一种,我这里加载的是修勾~)。这里由于我加载的是PNG图片,PNG图片为RGBA四个颜色通道,这里需要将他转换为RGB色彩。原创 2024-08-02 09:16:45 · 551 阅读 · 0 评论 -
准确率、精确率、召回率、F1-score 概念、计算原理
TP(True Positives):真正例,即正例预测为真(预测为正例而且实际上也是正例);FP(False Positives):假正例,即负例预测为真(预测为正例然而实际上却是负例);FN(false Negatives):假负例,即正例预测为假(预测为负例然而实际上却是正例);TN(True Negatives):真负例,即负例预测为假(预测为负例而且实际上也是负例)。原创 2024-07-25 09:55:39 · 1323 阅读 · 0 评论 -
梯度下降概念图解——BGD批量梯度下降、SGD随机梯度下降、MBGD小批量梯度下降
求所有点误差的平均值:(其中x,y和样本数n都是已知数,用常量a,b.c分别代替)对于这个图来说:点p1的均方误差e1就为:e1=(y1-w*x1)^2。表示了学习所需要付出的代价,该函数也是样本点拟合过程的映射(如下图)。拓展到计算每一个点就可以算出无数的e1,e2,e2…SGD随机梯度下降,每下降一步只需要用一个样本进行计算。loss function: 得出的误差函数。BGD批量梯度下降是梯度下降最原始的方式,)重复直至找到最低点。原创 2024-08-07 13:52:02 · 471 阅读 · 0 评论 -
动手深度学习基础知识——张量、点积、Hadamard积
张量乘以或加上一个标量不会改变张量的形状,其中张量的每个元素都将与标量相加或相乘。给定两个向量X,Y,它们的点积(dot product)是相同位置按元素乘积的和。(Hadamard product)(数学符号见下图)。张量是描述具有任意数量轴的n维数组的通用方法。,其中第i行和第j列的元素是bij。两个矩阵的按元素乘法称为。(在1加法中定义)和。原创 2024-08-08 14:23:20 · 414 阅读 · 0 评论