
LLMs
文章平均质量分 54
落难Coder
这里是我的笔记,而你恰好看到
展开
-
最全大语言模型 LLM 学习教程,涵盖工具、数据、论文、基础学习视频、实践代码...
全世界最好的大语言模型资源汇总 持续更新。原创 2024-12-20 17:49:09 · 1241 阅读 · 0 评论 -
LLM / NLP 系列学习教程
该仓库提供了 LLM、基于 BERT 的模型和多模态模型的高级教程,涵盖微调、量化、词汇扩展以及文本分类、相似度计算和图像文本匹配等任务。原创 2024-11-24 20:49:48 · 387 阅读 · 0 评论 -
LLM 系列学习教程
该仓库提供了 LLM、基于 BERT 的模型和多模态模型的高级教程,涵盖微调、量化、词汇扩展以及文本分类、相似度计算和图像文本匹配等任务。原创 2024-11-24 20:44:56 · 1046 阅读 · 0 评论 -
HF上的 llava-med-zh-instruct-60k 数据预处理代码
【代码】HF上的 llava-med-zh-instruct-60k 数据预处理代码。原创 2024-10-29 13:35:54 · 377 阅读 · 0 评论 -
LLM 推理的核心评估指标
想要优化 LLM 推理,首先要了解 LLM 推理的核心指标。原创 2024-10-18 15:07:20 · 705 阅读 · 0 评论 -
使用 HyDE 改善 RAG 回复的精确度
通过 HyDE,query embedding我做了一些改进。首先让 LLM 生成回答查询的文档,然后将生成的虚拟答案转换为嵌入,而不是直接将查询转换为嵌入。原创 2024-10-17 16:57:37 · 242 阅读 · 0 评论 -
RAG 中进行 Rewrite 的prompt
【代码】RAG 中进行 Rewrite 的prompt。原创 2024-10-17 10:49:52 · 167 阅读 · 0 评论 -
RAG 中为什么使用 ReRank 而不是 Embedding 直接一步到位?
除了这个原因以外,拆分 Rerank 阶段也提供了更加灵活的筛选文档的能力,比如 Ragflow 就是在 Rerank 中使用 0.3 * 文本匹配得分 + 0.7 * 向量匹配得分 加权得出综合得分进行排序,Rerank 阶段可以提供类似这种灵活的选择手段。原因是 Embedding 过程是将文档的所有可能含义压缩到一个向量中,方便使用向量进行检索。那直接执行 Rerank 是否可行呢?肯定也是不行的,Rerank 需要 1 对 1 计算相似分的,在海量的文档中一一比对查找文档,效率肯定是不能接受的。原创 2024-10-17 10:46:51 · 724 阅读 · 0 评论 -
详解白盒和黑盒知识蒸馏
与白盒蒸馏相反,黑盒蒸馏不需要访问教师模型的内部信息。学生模型仅从教师生成的输入输出配对中学习,而对其内部操作没有任何了解。例如 LaMini-LM 这项工作创建了一组 258 万条指令,并采用 GPT-3.5 Turbo 来生成对这些指令的响应。在白盒蒸馏中,教师模型的架构和权重是完全可访问的。这种透明度使学生模型不仅可以学习教师模型的输出,还可以学习其内部表示和决策过程。黑盒蒸馏也被认为是一种很有前途的工具,可以将思维链 (CoT) 的力量从较大的模型转移到较小的模型。原创 2024-10-09 14:20:13 · 851 阅读 · 0 评论 -
大语言模型 LLM 量化技术略解
随着语言模型规模的不断增大,其训练的难度和成本已成为共识。而随着用户数量的增加,模型推理的成本也在不断攀升,甚至可能成为限制模型部署的首要因素。因此,我们需要对模型进行压缩以加速推理过程,而模型量化是其中一种有效的方法。大语言模型的参数通常以高精度浮点数存储,这导致模型推理需要大量计算资源。量化技术通过将高精度数据类型存储的参数转换为低精度数据类型存储,可以在不改变模型参数量和架构的前提下加速推理过程。这种方法使得模型的部署更加经济高效,也更具可行性。浮点数一般由3部分组成:符号位、指数位和尾数位。原创 2024-10-07 20:01:24 · 1056 阅读 · 0 评论 -
详细对比 SFT 和 RLHF 模型的区别
研究发现,在模型的泛化能力上,经过RLHF训练的模型表现更为出色,超越了仅经过SFT的模型。然而,在回复的多样性方面,RLHF则显著不如SFT,即经过RLHF的模型倾向于产生更为相似的回复。SFT后的模型能够更加精准的识别InstructionTokens、并依赖这些指令进行生成,而RLHF作为一种更有力的训练方式,能够进一步强化LLM对指令的识别及响应能力,因此在泛化性提升上,RLHF>SFT。在多样性上,输出模式、风格的集中是RLHF的必然后果,因此RLHF后LLM的多样性会有所降低。原创 2024-09-06 11:30:06 · 1290 阅读 · 0 评论 -
国内快速高效下载 HuggingFace上的各种大语言模型
【代码】国内快速高效下载 HuggingFace上的各种大语言模型。原创 2024-09-05 18:03:53 · 672 阅读 · 0 评论 -
LLM 词汇表
检索增强生成(RAG)是一种将信息检索与语言模型生成结合起来,以提高生成文本的准确性和相关性,并更好地将模型的响应基于证据的方法。模型使用这些信息来指导其生成的输出。在与语言模型进行“文本”级别的交互时,标记通常是隐藏的,但在检查语言模型的确切输入和输出时变得相关。较高的温度会产生更具创造性和多样性的输出,允许多个不同的措辞变体,在小说的情况下,也可以产生不同的答案。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示,而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。原创 2024-09-03 21:41:11 · 975 阅读 · 0 评论 -
丝滑切换多个LoRA权重(LoRA加载与卸载方法)
对于 LoRA 方法特别说明:要合并并卸载当前激活的适配器,以便 LoRA 的权重被添加到基础模型的权重中,并移除注入的模型以恢复基础的 transformers 模型(同时保留添加的 LoRA 权重),请使用。原创 2024-08-18 23:16:38 · 1251 阅读 · 0 评论 -
大语言模型(LLM)什么时候需要微调?微调的步骤是什么?
微调不是万能的。原创 2024-08-13 14:31:10 · 225 阅读 · 0 评论 -
LLM 预训练监督微调阶段 tricks
🌟LLM的预训练tricks使用“base”模型进行继续预训练(而不是“chat”模型),“base”模型的能力是最好的,因为还没有进行人类价值观的对齐训练。缩放定律(Scaling law)是非常重要的,Scaling law不仅适用于LLM的预训练,也适用于有监督微调阶段的训练。对于预训练过程的超参数设置(Batch size / 学习率)应当参考来自其他论文或者先前工作的一些设置。继续预训练需要百万,千万甚至上亿的tokens训练语料,过少的训练语料不支持进行预训练工作。多阶段的继续预训练原创 2024-08-08 09:46:41 · 519 阅读 · 0 评论 -
大模型Prompt Template格式
【代码】大模型Prompt Template格式。原创 2024-08-07 20:43:30 · 389 阅读 · 0 评论 -
PEFT配置文件LoraConfig中的target_modules参数详解
如果我们采用的是未在实现定义的大语言模型列表内,因此必须手动显示指定。如果你本地安装了pdft安装包,则可以在以下位置看到。针对了部分预制的大语言模型,定义了默认的。原创 2024-08-07 18:28:22 · 4062 阅读 · 0 评论 -
将扩充的中文 tokenizer 模型应用于自己的LLM模型上(embedding参数修改)
在中我们详细讲述了如何基于自己的数据对tokennizer模型进行训练调整。在本文中,我们将继续讲述基于SentencePiece扩充LLaMa的词表,但是扩充了词表后的下一步该怎么操作呢?如何将新增的token在模型的embedding层和lm_head层初始化呢?原创 2024-08-06 21:44:11 · 645 阅读 · 0 评论 -
手把手带你了解和实践扩充 LLaMA 大语言模型的 tokenizer 模型(实现中文token过程)
开始训练,这里面有几个参数要注意一下,model_type分词算法选择bpe,split_digits为True,byte_fallback为True,和LLaMa 保持一致,max_sentence_length设置的大一点,更多参数解释可以查看:https://zhuanlan.zhihu.com/p/655281268 和 https://zhuanlan.zhihu.com/p/639144223。目前,大语言模型呈爆发式的增长,其中,基于llama家族的模型占据了半壁江山。原创 2024-08-06 21:40:02 · 1680 阅读 · 0 评论 -
Transformer 理论与代码实践,一步一步详细剖析
在现在的大模型时代,核心还得是Transformer,Transformer是由谷歌于2017年提出,最初用于机器翻译的神经网络模型,在此衍生出了一系列的模型,BERT、T5、GPT、GLM、BLOOM、LLaMa等等从小模型到大模型都少不了他。Transformer最经典的模型结构图还得是论文中原汁原味的图关于这张图的讲解在其他的回答中有很多,简单总结下,左边是编码器(Encoder),右边是解码器(Decoder),N× 表示进行了 N 次堆叠。接下来分别对每个模块进行简述以及代码实现。原创 2024-08-06 21:35:12 · 1256 阅读 · 0 评论 -
将你的GGUF模型发布到Ollama社区
【代码】将你的GGUF模型发布到Ollama社区。原创 2024-05-13 09:45:48 · 315 阅读 · 0 评论 -
使用Ollama从头构建Embedding和RAG系统
检索增强生成(RAG)赋予大型语言模型新的能力,使其能够与任何大小的文档或数据集进行互动。接下来,请跟随我一起了解如何解析和操作文档,探讨如何利用嵌入向量来描述抽象概念,实现一种简单而强大的方法,以找出文档中与特定查询最相关的部分,并最终构建一个脚本,使本地托管的大型语言模型能够处理您自己的文档。原创 2024-04-05 15:33:23 · 7079 阅读 · 0 评论 -
【大语言模型】Ollama使用指北
Ollama 默认提供 OpenAI 的兼容 API,默认端口是 11434,默认模型名是 run 后面使用的模型名,如果想使用 OpenAI 的模型名,可以通过ollama cp的方式,为模型起一个临时的名称。原创 2024-02-26 20:34:22 · 5453 阅读 · 1 评论 -
在具体领域中微调LLM模型的方案实施建议
大参数的模型比高精度的模型要好;模型的预训练虽然会付出极高的代价,但是效果也会提升比较明显;强化学习在一般的微调任务中很有必要加入;适当的在数据中引入历史对话可能有一定的提升效果;原创 2023-06-02 19:17:27 · 1582 阅读 · 1 评论