- 博客(327)
- 资源 (8)
- 收藏
- 关注
原创 使用 modelscope.hub.api 上传模型到 ModelScope
【代码】使用 modelscope.hub.api 上传模型到 ModelScope。
2025-01-04 21:47:54
349
原创 LLM / NLP 系列学习教程
该仓库提供了 LLM、基于 BERT 的模型和多模态模型的高级教程,涵盖微调、量化、词汇扩展以及文本分类、相似度计算和图像文本匹配等任务。
2024-11-24 20:49:48
385
原创 LLM 系列学习教程
该仓库提供了 LLM、基于 BERT 的模型和多模态模型的高级教程,涵盖微调、量化、词汇扩展以及文本分类、相似度计算和图像文本匹配等任务。
2024-11-24 20:44:56
1037
原创 HF上的 llava-med-zh-instruct-60k 数据预处理代码
【代码】HF上的 llava-med-zh-instruct-60k 数据预处理代码。
2024-10-29 13:35:54
376
1
原创 Linux 安装 CUDA | Install CUDA on Ubuntu 22.04 Step-by-Step
【代码】Linux 安装 CUDA | Install CUDA on Ubuntu 22.04 Step-by-Step。
2024-10-25 09:30:41
817
原创 使用 HyDE 改善 RAG 回复的精确度
通过 HyDE,query embedding我做了一些改进。首先让 LLM 生成回答查询的文档,然后将生成的虚拟答案转换为嵌入,而不是直接将查询转换为嵌入。
2024-10-17 16:57:37
240
原创 RAG 中为什么使用 ReRank 而不是 Embedding 直接一步到位?
除了这个原因以外,拆分 Rerank 阶段也提供了更加灵活的筛选文档的能力,比如 Ragflow 就是在 Rerank 中使用 0.3 * 文本匹配得分 + 0.7 * 向量匹配得分 加权得出综合得分进行排序,Rerank 阶段可以提供类似这种灵活的选择手段。原因是 Embedding 过程是将文档的所有可能含义压缩到一个向量中,方便使用向量进行检索。那直接执行 Rerank 是否可行呢?肯定也是不行的,Rerank 需要 1 对 1 计算相似分的,在海量的文档中一一比对查找文档,效率肯定是不能接受的。
2024-10-17 10:46:51
714
原创 如何调整batch size和学习率之间的关系?
一般来说,我们batch size 大一些,则learning rate也要大一些。×举例来说,原先别人的batch size 为128, learning rate为0.0005, 那么当我们把batch size改为1024时,则新的学习率有这样的推荐值:0.0005 * sqrt(1024/128) = 0.0005 * sqrt(8) = 0.001412。
2024-10-16 13:22:24
773
原创 Docker 安装与使用
https://yeasy.gitbook.io/docker_practicehttps://blog.youkuaiyun.com/llc580231/article/details/139979603
2024-10-15 21:32:20
125
原创 理解 PyTorch 中的 logits 和交叉熵损失函数
logits是模型输出的未归一化预测值,通常是全连接层的输出。在分类任务中,logits 的形状通常为,其中batch_size是一个批次中的样本数,num_labels是分类任务中的类别数。logits是模型的输出。假设logits的形状为,例如(32, 3),表示每个批次有32个样本,每个样本有3个类别的预测值。交叉熵损失函数()是一种常用于分类任务的损失函数。它衡量的是预测分布与真实分布之间的差异。具体而言,它会计算每个样本的预测类别与真实类别之间的距离,然后取平均值。
2024-10-09 14:33:12
572
原创 详解白盒和黑盒知识蒸馏
与白盒蒸馏相反,黑盒蒸馏不需要访问教师模型的内部信息。学生模型仅从教师生成的输入输出配对中学习,而对其内部操作没有任何了解。例如 LaMini-LM 这项工作创建了一组 258 万条指令,并采用 GPT-3.5 Turbo 来生成对这些指令的响应。在白盒蒸馏中,教师模型的架构和权重是完全可访问的。这种透明度使学生模型不仅可以学习教师模型的输出,还可以学习其内部表示和决策过程。黑盒蒸馏也被认为是一种很有前途的工具,可以将思维链 (CoT) 的力量从较大的模型转移到较小的模型。
2024-10-09 14:20:13
791
原创 大语言模型 LLM 量化技术略解
随着语言模型规模的不断增大,其训练的难度和成本已成为共识。而随着用户数量的增加,模型推理的成本也在不断攀升,甚至可能成为限制模型部署的首要因素。因此,我们需要对模型进行压缩以加速推理过程,而模型量化是其中一种有效的方法。大语言模型的参数通常以高精度浮点数存储,这导致模型推理需要大量计算资源。量化技术通过将高精度数据类型存储的参数转换为低精度数据类型存储,可以在不改变模型参数量和架构的前提下加速推理过程。这种方法使得模型的部署更加经济高效,也更具可行性。浮点数一般由3部分组成:符号位、指数位和尾数位。
2024-10-07 20:01:24
1054
原创 在Linux上安装其他版本的cmake 或 升级cmake
当用cmake编译的时候用的还是系统中旧的cmake版本,我们需要把这个cmake指定为我们新安装的版本。,我们这里编译要求cmake的版本至少是3.13以上。旧版本的cmake可以不用卸载的,所以上面的命令。3、把新安装的cmake建立系统cmake路径的。3、下载cmake的安装包,这里我下载的是。如下,已经成功安装了指定的cmake的版本。2、安装我们自己需要的cmake版本。,它自动把好多依赖都卸载了,把我的。上面的傻逼命令,会把之前安装的。3、查看安装好的cmake版本。卸载旧版本的cmake。
2024-10-02 22:11:35
820
原创 详细对比 SFT 和 RLHF 模型的区别
研究发现,在模型的泛化能力上,经过RLHF训练的模型表现更为出色,超越了仅经过SFT的模型。然而,在回复的多样性方面,RLHF则显著不如SFT,即经过RLHF的模型倾向于产生更为相似的回复。SFT后的模型能够更加精准的识别InstructionTokens、并依赖这些指令进行生成,而RLHF作为一种更有力的训练方式,能够进一步强化LLM对指令的识别及响应能力,因此在泛化性提升上,RLHF>SFT。在多样性上,输出模式、风格的集中是RLHF的必然后果,因此RLHF后LLM的多样性会有所降低。
2024-09-06 11:30:06
1278
原创 LLM 词汇表
检索增强生成(RAG)是一种将信息检索与语言模型生成结合起来,以提高生成文本的准确性和相关性,并更好地将模型的响应基于证据的方法。模型使用这些信息来指导其生成的输出。在与语言模型进行“文本”级别的交互时,标记通常是隐藏的,但在检查语言模型的确切输入和输出时变得相关。较高的温度会产生更具创造性和多样性的输出,允许多个不同的措辞变体,在小说的情况下,也可以产生不同的答案。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示,而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。
2024-09-03 21:41:11
971
原创 丝滑切换多个LoRA权重(LoRA加载与卸载方法)
对于 LoRA 方法特别说明:要合并并卸载当前激活的适配器,以便 LoRA 的权重被添加到基础模型的权重中,并移除注入的模型以恢复基础的 transformers 模型(同时保留添加的 LoRA 权重),请使用。
2024-08-18 23:16:38
1191
原创 使用MinHash和LSH进行大规模文本数据去重
假设我们有一组包含简单中文文本的数据。我们首先对每条文本进行分词,然后计算每条文本的MinHash值,并使用LSH将这些值插入到一个可查询的结构中。最后,我们查询每个文本的MinHash,找出所有相似的文本。这种方法特别适合处理语义上相似的文本,而不仅仅是字面上完全相同的文本。在这个例子中:文档0和文档3非常相似,因为它们都描述了“今天天气好,适合出去玩”的情景,尽管用词略有不同。文档2和文档4虽然都提到了“明天有雨”,但用词和句式的不同可能使得它们的相似度低于阈值。
2024-08-08 14:14:56
918
原创 LLM 预训练监督微调阶段 tricks
🌟LLM的预训练tricks使用“base”模型进行继续预训练(而不是“chat”模型),“base”模型的能力是最好的,因为还没有进行人类价值观的对齐训练。缩放定律(Scaling law)是非常重要的,Scaling law不仅适用于LLM的预训练,也适用于有监督微调阶段的训练。对于预训练过程的超参数设置(Batch size / 学习率)应当参考来自其他论文或者先前工作的一些设置。继续预训练需要百万,千万甚至上亿的tokens训练语料,过少的训练语料不支持进行预训练工作。多阶段的继续预训练
2024-08-08 09:46:41
517
原创 PEFT配置文件LoraConfig中的target_modules参数详解
如果我们采用的是未在实现定义的大语言模型列表内,因此必须手动显示指定。如果你本地安装了pdft安装包,则可以在以下位置看到。针对了部分预制的大语言模型,定义了默认的。
2024-08-07 18:28:22
3873
原创 将扩充的中文 tokenizer 模型应用于自己的LLM模型上(embedding参数修改)
在中我们详细讲述了如何基于自己的数据对tokennizer模型进行训练调整。在本文中,我们将继续讲述基于SentencePiece扩充LLaMa的词表,但是扩充了词表后的下一步该怎么操作呢?如何将新增的token在模型的embedding层和lm_head层初始化呢?
2024-08-06 21:44:11
641
原创 手把手带你了解和实践扩充 LLaMA 大语言模型的 tokenizer 模型(实现中文token过程)
开始训练,这里面有几个参数要注意一下,model_type分词算法选择bpe,split_digits为True,byte_fallback为True,和LLaMa 保持一致,max_sentence_length设置的大一点,更多参数解释可以查看:https://zhuanlan.zhihu.com/p/655281268 和 https://zhuanlan.zhihu.com/p/639144223。目前,大语言模型呈爆发式的增长,其中,基于llama家族的模型占据了半壁江山。
2024-08-06 21:40:02
1662
1
原创 Transformer 理论与代码实践,一步一步详细剖析
在现在的大模型时代,核心还得是Transformer,Transformer是由谷歌于2017年提出,最初用于机器翻译的神经网络模型,在此衍生出了一系列的模型,BERT、T5、GPT、GLM、BLOOM、LLaMa等等从小模型到大模型都少不了他。Transformer最经典的模型结构图还得是论文中原汁原味的图关于这张图的讲解在其他的回答中有很多,简单总结下,左边是编码器(Encoder),右边是解码器(Decoder),N× 表示进行了 N 次堆叠。接下来分别对每个模块进行简述以及代码实现。
2024-08-06 21:35:12
1254
原创 使用Ollama从头构建Embedding和RAG系统
检索增强生成(RAG)赋予大型语言模型新的能力,使其能够与任何大小的文档或数据集进行互动。接下来,请跟随我一起了解如何解析和操作文档,探讨如何利用嵌入向量来描述抽象概念,实现一种简单而强大的方法,以找出文档中与特定查询最相关的部分,并最终构建一个脚本,使本地托管的大型语言模型能够处理您自己的文档。
2024-04-05 15:33:23
7047
1
原创 【大语言模型】Ollama使用指北
Ollama 默认提供 OpenAI 的兼容 API,默认端口是 11434,默认模型名是 run 后面使用的模型名,如果想使用 OpenAI 的模型名,可以通过ollama cp的方式,为模型起一个临时的名称。
2024-02-26 20:34:22
5393
1
原创 ArXiv论文上传与发表的问题解决记录
在使用Latex编辑论文参考文献部分时,一般在百度谷歌学术上只能够获取到BibTex格式(bib),而有些期刊会议需要提供BibItem格式(bbl)。根据查看到的资料,详细描述一种批量将bib格式文件转为bbl文件,而bbl文件中的内容即为BibItem格式。
2023-07-17 17:50:56
839
原创 在具体领域中微调LLM模型的方案实施建议
大参数的模型比高精度的模型要好;模型的预训练虽然会付出极高的代价,但是效果也会提升比较明显;强化学习在一般的微调任务中很有必要加入;适当的在数据中引入历史对话可能有一定的提升效果;
2023-06-02 19:17:27
1577
1
YOLOv5微信小程序源代码(可根据任务自己定制修改)
2024-08-08
《GPT 学术优化 (GPT Academic)》源代码
2024-08-08
针对任何任务微调特定 SAM 模型 - 代码
2024-08-08
BestYOLO:以科研和竞赛为导向的最好的YOLO实践框架!
2024-08-08
《CareGPT (关怀GPT)医疗大语言模型》
2024-08-08
《ChatGenTitle:使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型》源代码
2024-08-06
《XrayGLM:首个会看胸部X光片的中文多模态医学大模型》源代码
2024-08-06
《基于Sentence-BERT训练自己的文本相似度模型》源代码
2024-08-06
《U-Net: 使用 PyTorch 进行语义分割》源代码
2024-08-06
机器学习/深度学习500问
2023-03-27
高端上档次引导页HTML源码
2023-03-27
机器学习、深度学习画图PPT模板
2023-03-27
目标检测跌倒检测数据集
2022-11-13
十种林业害虫数据集,采取VOC格式标注,可用于目标前检测模型训练
2022-07-13
动态透明调调的交互式个人主页HTML源码
2022-07-13
基于百度EasyDL图像分类的通用微信小程序
2022-07-13
手工采集的斑马线与人行道标注数据集,可用于YOLOv5等目标检测任务的训练
2022-07-13
可用于深度学习或者图像处理研究的农作物病虫害数据集
2022-07-13
YOLOv5快速训练助手
2022-06-08
可用于深度学习训练的烟雾火灾数据集
2022-06-02
Labelimg中文版
2022-05-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人