
NLP
文章平均质量分 72
落难Coder
这里是我的笔记,而你恰好看到
展开
-
最全大语言模型 LLM 学习教程,涵盖工具、数据、论文、基础学习视频、实践代码...
全世界最好的大语言模型资源汇总 持续更新。原创 2024-12-20 17:49:09 · 1241 阅读 · 0 评论 -
LLM / NLP 系列学习教程
该仓库提供了 LLM、基于 BERT 的模型和多模态模型的高级教程,涵盖微调、量化、词汇扩展以及文本分类、相似度计算和图像文本匹配等任务。原创 2024-11-24 20:49:48 · 387 阅读 · 0 评论 -
LLM 系列学习教程
该仓库提供了 LLM、基于 BERT 的模型和多模态模型的高级教程,涵盖微调、量化、词汇扩展以及文本分类、相似度计算和图像文本匹配等任务。原创 2024-11-24 20:44:56 · 1046 阅读 · 0 评论 -
RAG 中为什么使用 ReRank 而不是 Embedding 直接一步到位?
除了这个原因以外,拆分 Rerank 阶段也提供了更加灵活的筛选文档的能力,比如 Ragflow 就是在 Rerank 中使用 0.3 * 文本匹配得分 + 0.7 * 向量匹配得分 加权得出综合得分进行排序,Rerank 阶段可以提供类似这种灵活的选择手段。原因是 Embedding 过程是将文档的所有可能含义压缩到一个向量中,方便使用向量进行检索。那直接执行 Rerank 是否可行呢?肯定也是不行的,Rerank 需要 1 对 1 计算相似分的,在海量的文档中一一比对查找文档,效率肯定是不能接受的。原创 2024-10-17 10:46:51 · 724 阅读 · 0 评论 -
LLM 词汇表
检索增强生成(RAG)是一种将信息检索与语言模型生成结合起来,以提高生成文本的准确性和相关性,并更好地将模型的响应基于证据的方法。模型使用这些信息来指导其生成的输出。在与语言模型进行“文本”级别的交互时,标记通常是隐藏的,但在检查语言模型的确切输入和输出时变得相关。较高的温度会产生更具创造性和多样性的输出,允许多个不同的措辞变体,在小说的情况下,也可以产生不同的答案。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示,而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。原创 2024-09-03 21:41:11 · 975 阅读 · 0 评论 -
使用MinHash和LSH进行大规模文本数据去重
假设我们有一组包含简单中文文本的数据。我们首先对每条文本进行分词,然后计算每条文本的MinHash值,并使用LSH将这些值插入到一个可查询的结构中。最后,我们查询每个文本的MinHash,找出所有相似的文本。这种方法特别适合处理语义上相似的文本,而不仅仅是字面上完全相同的文本。在这个例子中:文档0和文档3非常相似,因为它们都描述了“今天天气好,适合出去玩”的情景,尽管用词略有不同。文档2和文档4虽然都提到了“明天有雨”,但用词和句式的不同可能使得它们的相似度低于阈值。原创 2024-08-08 14:14:56 · 935 阅读 · 0 评论 -
PEFT配置文件LoraConfig中的target_modules参数详解
如果我们采用的是未在实现定义的大语言模型列表内,因此必须手动显示指定。如果你本地安装了pdft安装包,则可以在以下位置看到。针对了部分预制的大语言模型,定义了默认的。原创 2024-08-07 18:28:22 · 4062 阅读 · 0 评论 -
将扩充的中文 tokenizer 模型应用于自己的LLM模型上(embedding参数修改)
在中我们详细讲述了如何基于自己的数据对tokennizer模型进行训练调整。在本文中,我们将继续讲述基于SentencePiece扩充LLaMa的词表,但是扩充了词表后的下一步该怎么操作呢?如何将新增的token在模型的embedding层和lm_head层初始化呢?原创 2024-08-06 21:44:11 · 645 阅读 · 0 评论 -
手把手带你了解和实践扩充 LLaMA 大语言模型的 tokenizer 模型(实现中文token过程)
开始训练,这里面有几个参数要注意一下,model_type分词算法选择bpe,split_digits为True,byte_fallback为True,和LLaMa 保持一致,max_sentence_length设置的大一点,更多参数解释可以查看:https://zhuanlan.zhihu.com/p/655281268 和 https://zhuanlan.zhihu.com/p/639144223。目前,大语言模型呈爆发式的增长,其中,基于llama家族的模型占据了半壁江山。原创 2024-08-06 21:40:02 · 1680 阅读 · 0 评论 -
Transformer 理论与代码实践,一步一步详细剖析
在现在的大模型时代,核心还得是Transformer,Transformer是由谷歌于2017年提出,最初用于机器翻译的神经网络模型,在此衍生出了一系列的模型,BERT、T5、GPT、GLM、BLOOM、LLaMa等等从小模型到大模型都少不了他。Transformer最经典的模型结构图还得是论文中原汁原味的图关于这张图的讲解在其他的回答中有很多,简单总结下,左边是编码器(Encoder),右边是解码器(Decoder),N× 表示进行了 N 次堆叠。接下来分别对每个模块进行简述以及代码实现。原创 2024-08-06 21:35:12 · 1256 阅读 · 0 评论