
大模型
文章平均质量分 66
兔兔爱学习兔兔爱学习
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
PyTorch中torch、torchvision、torchaudio、torchtext版本对应关系
torch与torchaudio对应关系,来源:官方Repo: audio | docs。torch与torchtext对应关系,来源:官方Repo: text。torch与torchdata对应关系,来源:官方Repo: data。原创 2025-06-11 15:43:02 · 321 阅读 · 0 评论 -
RAGFlow 中的 Rerank 和 Recall 解释
输入 = “中国的首都是哪里?[SEP] 北京是中国的首都。北京是一个历史悠久的城市。上下文 = “北京是中国的首都。北京是一个历史悠久的城市。输入 = “<查询> [SEP] <上下文>”答案 = “中国的首都是北京。原创 2025-05-15 17:53:58 · 260 阅读 · 0 评论 -
深度解析LLM参数:Top-K、Top-p和温度如何影响输出随机性?
大语言模型(LLM)在生成文本时,通过控制推理参数来调节输出的随机性和确定性。常见的参数包括Top-K、Top-p和温度。Top-K和Top-p是采样策略,分别通过限制候选词的数量或累积概率来影响输出。Top-K选择概率最高的K个词,而Top-p选择累积概率达到p的最小词集。温度则通过调整Softmax函数的输出,影响概率分布的形状。高温使概率分布更均匀,增加输出的随机性和创造性;低温则放大高概率词的优势,使输出更确定和常规。这些参数共同作用于LLM的输出概率分布,帮助模型在不同场景下生成符合需求的文本。原创 2025-05-12 16:03:43 · 767 阅读 · 0 评论 -
多智能体学习CAMEL-调用api
在ModelScope中的中选择推理 API-Inference ,里面的模型都可以选择,我们可以体验到最新的使用DeepSeek-R1数据蒸馏出的Llama-70B模型。原创 2025-05-08 15:01:53 · 265 阅读 · 0 评论 -
LangChain 核心模块:Data Conneciton - Vector Stores
存储和搜索非结构化数据最常见的方法之一是将其嵌入并存储生成的嵌入向量,然后在查询时将非结构化查询进行嵌入,并检索与嵌入查询“最相似”的嵌入向量。向量存储库负责为您存储已经过嵌入处理的数据并执行向量搜索。下面以Chroma为例展示功能和用法。原创 2025-04-30 11:45:52 · 265 阅读 · 0 评论 -
LangChain 核心模块:Data Conneciton - Document Loaders
BaseLoader类定义了如何从不同的数据源加载文档,并提供了一个可选的方法来分割加载的文档。使用这个类作为基础,开发者可以为特定的数据源创建自定义的加载器,并确保所有这些加载器都提供了加载数据的方法。load_and_split方法还提供了一个额外的功能,可以根据需要将加载的文档分割为更小的块。# 基础加载器类。"""基础加载器类定义。"""# 抽象方法,所有子类必须实现此方法。"""加载数据并将其转换为文档对象。"""# 该方法可以加载文档,并将其分割为更小的块。"""加载文档并分割成块。原创 2025-04-30 11:25:33 · 285 阅读 · 0 评论 -
LangChain 核心模块学习:Chains
template = “”"你是一位剧作家。根据戏剧的标题,你的任务是为该标题写一个简介。标题:{title}剧作家:以下是对上述戏剧的简介:“”"template = “”"你是《纽约时报》的戏剧评论家。根据剧情简介,你的工作是为该剧撰写一篇评论。剧情简介:{synopsis}以下是来自《纽约时报》戏剧评论家对上述剧目的评论:“”"template = “”"你是一位剧作家。根据戏剧的标题和设定的时代,你的任务是为该标题写一个简介。标题:{title}时代:{era}原创 2025-04-30 11:11:38 · 1037 阅读 · 0 评论 -
Linux部署ragflow,从安装docker开始~
配置国内镜像源,使用以下命令,会创建一个json配置文件,然后切换为英文输入法点击 i 就会进入编辑模式,此时将下方的json配置文件粘贴进去,然后依次点击 Esc -> : -> wq -> Enter 此时配置文件新增完成。切换为英文输入法点击 i 就会进入编辑模式,此时将下方的json配置文件粘贴进去,然后依次点击 Esc -> : -> wq -> Enter 此时配置文件新增完成;配置完毕,开始安装,还是在ragflow的docker目录下,以下指令开始一键部署。下载完成后使用以下命令解压。原创 2025-04-25 13:59:56 · 1138 阅读 · 0 评论 -
MCP的原理
MCP (Model Context Protocol) 代表了 AI 与外部工具和数据交互的标准建立。MCP 是 Anthropic (Claude) 主导发布的一个开放的、通用的、有共识的协议标准。MCP 架构为什么需要 MCP 呢?举个例子,例如我们目前还不能同时通过某个 AI 应用来做到联网搜索、发送邮件、发布自己的博客等等,这些功能单个实现都不是很难,但是如果要全部集成到一个系统里面,就会变得遥不可及。原创 2025-04-22 17:57:11 · 798 阅读 · 0 评论 -
使用领域(私有)数据微调 ChatGLM3 生成带有 epoch 和 timestamp 的模型文件
"input"以下是优化后的代码及详细说明,确保能够正确实现基于私有数据微调ChatGLM3模型,并生成带有和。原创 2025-04-22 16:40:38 · 352 阅读 · 0 评论 -
构造微调训练数据集
该方案通过结构化设计和多层验证机制,确保生成的训练数据在格式规范性、内容完整性和数据多样性方面达到较高标准,可为后续AI模型训练提供可靠的数据基础。原创 2025-04-21 17:36:35 · 854 阅读 · 0 评论 -
RAG 与 MCP解决大模型的局限性
模型上下文协议 (MCP) 使用不同的方法来扩展人工智能 (AI) 的能力。虽然 RAG 侧重于在生成之前进行检索,但 MCP 为大型语言模型 (LLM) 提供了一个标准化的接口,以便在生成过程中请求额外信息或执行操作,这里和RAG是区别性比较多的,MCP大致就是大模型变生成变调用外部能力。Claude和GPT-4o等大型语言模型 (LLM) 功能强大,但也面临两个主要限制:它们包含的知识是时效性的(更具体地说,是在训练时点固定的),并且决定它们一次可以处理多少信息的上下文窗口是有限的。原创 2025-04-21 16:07:19 · 532 阅读 · 0 评论 -
模型推理-使用 QLORA 微调后的 ChatGLM-6B
技术对模型进行微调后的适配,比较原始模型和微调后模型在相同问题上的表现。通过这种方式,可以验证微调的效果,并探索不同数据集或训练参数对模型性能的影响。这段代码的主要目的是加载一个预训练的。原创 2025-04-21 15:20:10 · 680 阅读 · 0 评论 -
LangChain 调用私有化 ChatGLM 模型
带记忆的机制通过记录和引用对话历史,使无状态的LLM具备“记忆”能力。其核心是。原创 2025-04-21 13:49:36 · 916 阅读 · 0 评论 -
基于 `Gradio` 的聊天机器人界面
的聊天机器人界面,并使用了。这段代码实现了一个基于。原创 2025-04-14 17:57:50 · 803 阅读 · 0 评论 -
Transformer的问题
当然,最好是能够高速计算(矩阵乘法),并且表达能力强(query可以主动去关注到其他的key并在value上进行强化,并且忽略不相关的其他部分),模型容量够(引入了project_q/k/v,att_out,多头)你可以类比CV中的不同的channel(不同卷积核)会关注不同的信息,事实上不同的头也会关注不同的信息。任何norm的意义都是为了让使用norm的网络的输入的数据分布变得更好,也就是转换为标准正态分布,数值进入敏感度区间,以减缓梯度消失,从而更容易训练。f.为什么不用BN?原创 2025-04-13 12:12:58 · 175 阅读 · 0 评论 -
大模型训练相关名词
Ⅲ) trigram:指将句子或文本中的每个相邻的三个单词作为一个基本单元,用于描述三个单词之间的顺序关系。Ⅳ) 4-grams:指将句子或文本中的每个相邻的四个单词作为一个基本单元,用于描述四个单词之间的顺序关系。Ⅱ) bigram:指将句子或文本中的每个相邻的单词对都作为一个基本单元,用于描述两个单词之间的顺序关系。Ⅰ) unigram:指将句子或文本中的每个单词都单独作为一个基本单元,不考虑单词之间的顺序。大模型训练是本平台的核心功能,统一查看模型的训练状态选择更加适合的模型训练方式。原创 2025-04-13 12:06:58 · 900 阅读 · 0 评论 -
大模型训练关注的性能
模型训练通常关注的性能指标有哪些?。混合精度训练使用半精度训练的优缺点半精度训练优点:跑得快+省显存半精度训练缺点:精度(下溢+舍入误差)的问题。使用了半精度训练,一般会采用一些捆绑的技术来弥补半精度的缺点。layer norm的层可能会完全使用float32,因为需要计算一组值的均值和方差,而这需要进行加法和除法运算,所以float16可能会出岔子。使用bf16和fp16进行半精度训练的优缺点。原创 2025-04-13 12:02:50 · 551 阅读 · 0 评论 -
大模型微调相关的内容
在LoRA中,A和B低秩矩阵的初始化方法,对A采用高斯初始化,对B采用零矩阵初始化,目的是让训练刚开始时BA的值为0,这样不会给模型带来额外的噪声。反正看起来只要让初始化为0就行?介绍下 Prefix Tuning、Prompt Tuning、P-Tuning、P-Tuning v2 这四种高效微调方法的区别与联系?当前作者还没有发现转换初始化方式产生的显著区别,只要这两者中任意一者为0,另一者不为0即可。参考:https://github.com/microsoft/LoRA/issues/98。原创 2025-04-13 11:59:59 · 274 阅读 · 0 评论 -
大模型新名词
原创 2025-04-13 11:50:09 · 245 阅读 · 0 评论 -
AI芯片知识
模型算力利用率(Model FLOPs Utilization, MFU)和硬件算力利用率(Hardware FLOPs Utilization, HFU)是评估某一模型实现对芯片计算性能利用情况的常用指标。硬件算力利用率是指考虑重计算后,模型一次前反向计算消耗的矩阵算力与机器算力的比值。模型算力利用率是指模型一次前反向计算消耗的矩阵算力与机器算力的比值。注:FLOPs指浮点运算次数,FLOPS指每秒的浮点运算次数。模型算力利用率(MFU)+硬件算力利用率(HFU)原创 2025-04-13 11:48:06 · 273 阅读 · 0 评论 -
大模型数据集相关
并且对数据进行清洗,如下图所示,主要关注数据的频率和质量:数据频率:借助LSH-like和Embedding特征对数据进行聚类和去重,主要是对每个聚类的簇给文档、段落、句子进行去重和打分,分值用于用于最终的数据采样。数据质量:句子级别质量过滤,但未说明明确过滤规则。但从垂域效果来看,医疗和法律数据应该不会少,并且从数据本身质量来看,书籍&论文数据的采样率应该也会比较高。在数据采集过程中,为了数据的全面性和代表性,从多个来源进行数据收集,包括但不限于网页、书籍、研究论文、代码等,各类别数据分布如下所示。原创 2025-04-13 11:44:41 · 166 阅读 · 0 评论 -
大模型压缩技术
剪枝是一种强大的技术,通过删除不必要的或冗余组件来减少模型的大小或复杂性。众所周知,有许多冗余参数对模型性能几乎没有影响,因此在直接剪掉这些冗余参数后,模型性能不会受到太多影响。同时,剪枝可以在模型存储、内存效率和计算效率等方面更加友好。剪枝可以分为非结构化剪枝和结构化剪枝,二者的主要区别在于剪枝目标和由此产生的网络结构。结构化剪枝剪掉基于特定规则的连接或分层结构,同时保留整体网络结构。非结构化剪枝针对单个参数,会导致不规则的稀疏结构。原创 2025-04-13 11:42:38 · 691 阅读 · 0 评论 -
FP6服务LLM
INT4量化技术的挑战:虽然这些技术可以减小模型大小和参数存储量,但由于过拟合问题, 它们在更一般的许多任务中往往表现不佳,包括代码生成和摘要等更多生成任务。FP6的突破:FP6数据格式在当前AI硬件的高效支持中存在挑战。该格式在各种任务的性能和灵活性方面均表现出色。为了提高FP6在当前主流AI硬件上的执行效率,我们提出了一种4+2新颖的FP6 GPU kernel方案。这一创新使FP6成为提高LLMs效率的有效途径。原创 2025-04-13 11:38:16 · 300 阅读 · 0 评论 -
知识蒸馏介绍
知识蒸馏,也被称为教师-学生神经网络学习算法,已经受到业界越来越多的关注。大型深度网络在实践中往往会获得良好的性能,因为当考虑新数据时,过度参数化会提高泛化性能。在知识蒸馏中,小网络(学生网络)通常是由一个大网络(教师网络)监督,算法的关键问题是如何将教师网络的知识传授给学生网络。通常把一个全新的更深的更窄结构的深度神经网络当作学生神经网络,然后把一个预先训练好的神经网络模型当作教师神经网络。原创 2025-04-13 11:31:38 · 334 阅读 · 0 评论 -
MINILLM
提出名为MINILLM的新方法,能从生成式大型语言模型中蒸馏出较小的语言模型。首先将标准KD方法中的前向Kullback-Leibler散度(KLD)目标替换为更适合在生成语言模型上进行KD的反向KLD,以防止学生模型高估教师分布的低概率区域。提出一种从生成式LLM中蒸馏较小语言模型的方法,通过改进KD方法,实现了更高的生成质量、更低的暴露偏差、更好的校准性和更高的长文本生成性能。提出了一种MINILLM方法,通过改进知识蒸馏方法,实现了从大型语言模型到小型模型的知识传递,提升了生成质量和性能。原创 2025-04-13 11:24:58 · 155 阅读 · 0 评论 -
7个向量数据库对比:Milvus、Pinecone、Vespa、Weaviate、Vald、GSI 和 Qdrant
算法基准测试超出了范围,因为您始终可以求助于https://github.com/erikbern/ann-benchmarks查找有关单个算法性能和权衡的详细信息。本文简要总结了当今市场上正在积极开发的7个向量数据库,Milvus、Pinecone、Vespa、Weaviate、Vald、GSI 和 Qdrant 的详细比较。3.算法:自定义实现的 HNSW,调整到规模,并支持完整的 CRUD。3.算法:允许多个基于 ANN 算法的索引:FAISS、ANNOY、HNSW、RNSG。原创 2025-04-13 11:04:49 · 487 阅读 · 0 评论 -
rag相关的技术
我们所熟知的word embedding是以token为基本单位,而text embedding则是以文本为基本单位的。c) 将模型最后一层所有位置的向量表征,再经过一个Pooling层得到的向量。1)哪怕是GPT3.5,幻觉依然严重,商业场景(如客服,研究)没法支持,用户满意度可怜。d) 将模型最后一层所有位置的向量表征,再经过一个Pooling层跟MLP层得到的向量。b) 将模型最后一层[CLS]位置的向量表征,再经过MLP层得到的向量。a) 将模型最后一层[CLS]位置的向量表征直接作为句向量。原创 2025-04-13 10:56:25 · 136 阅读 · 0 评论 -
敏感词过滤算法
基于 DFA 算法实现的高性能 java 敏感词过滤工具框架。一、基于关键词匹配的敏感词检测算法。二、基于正则表达式的敏感词检测算法。中文冒犯语言检测数据集。原创 2025-04-11 22:51:32 · 275 阅读 · 0 评论 -
旋转位置编码
旋转编码 RoPE 可以通过旋转矩阵来实现位置编码的外推,即可以通过旋转矩阵来生成超过预训练长度的位置编码。这一点是其他固定位置编码方式(如正弦位置编码、固定相对位置编码等)所不具备的,因为它们只能表示预训练长度内的位置,而不能表示超过预训练长度的位置。旋转编码 RoPE 可以有效地保持位置信息的相对关系,即相邻位置的编码之间有一定的相似性,而远离位置的编码之间有一定的差异性。这一点是其他绝对位置编码方式(如正弦位置编码、学习的位置编码等)所不具备的,因为它们只能表示绝对位置,而不能表示相对位置。原创 2025-04-11 22:42:25 · 292 阅读 · 0 评论 -
KV Cache大模型推理加速功能
另外,之前提到KV Cache中,Q的作用只发生在当下,但是在模型训练的过程中,每个输入的token会通过多头注意力机制生成对应的query、key和value。同时,与GQA和MQA相比,不同于MQA和GQA可能因合并或分组而丢失细节信息,MLA的压缩是基于保持尽可能多的原始信息的前提下进行的。假设单个Attention Block块中的多头注意力,有n个头,每个k和v的维度为d,则每一步需要缓存的参数量为。不过,也有随之而来的问题,最主要的问题是,需要设计一个高效和公平的门控机制,即负载均衡问题。原创 2025-04-11 22:15:58 · 675 阅读 · 0 评论 -
大模型FAQ
如果在使用Deepspeed进行分布式训练时出现此错误,则需要在初始化模型时指定empty_init=False,以便在加载权重之前,权重矩阵不会被初始化为空。在Deepspeed分布式训练中,模型的初始化和权重加载可能需要特殊处理,因此需要使用empty_init=False参数来指定在加载权重之前不要将权重矩阵初始化为空。综上所述,您遇到的问题是因为在使用 DeepSpeed 进行分布式训练时,模型权重的初始化方式与普通的训练方式不同,因此需要通过指定 empty_init=False 参数来解决。原创 2025-04-08 20:49:39 · 717 阅读 · 0 评论 -
领域大模型
那么这个比例多少比较合适呢?目前还没有一个准确的答案,BloombergGPT(从头预训练)预训练金融和通用数据比例基本上为1:1,ChatHome(继续预训练)发现领域:通用数据比例为1:5时最优。现有大模型在预训练过程中都会加入书籍、论文等数据,那么在领域预训练时这两种数据其实也是必不可少的,主要是因为这些数据的数据质量较高、领域强相关、知识覆盖率(密度)大,可以让模型更适应考试。如果你在Chat模型上进行SFT的时候,请跟Chat模型的输入格式一致,否则当你数据量不足时,可能会导致训练效果不明显。原创 2025-04-08 20:42:59 · 354 阅读 · 0 评论 -
金融大模型
在这里,我们提供金融领域LLM训练和微调的完整渠道。FinGPT v3 系列是在新闻和微博情绪分析数据集上使用 LoRA 方法进行微调的LLM,在大多数金融情绪分析数据集上取得了最佳分数。用 ChatGLM 和 LoRA 在中国金融市场训练我们自己的 FinGPT。FinGPT v3.1 使用 chatglm2-6B 作为基础模型;FinGPT v3.2 使用 llama2-7b 作为基础模型.用LLaMA和LoRA在美国金融市场训练我们自己的FinGPT。FinGPT LLM 层使用的开源基础模型。原创 2025-04-08 20:32:04 · 249 阅读 · 0 评论 -
文档大模型
处理流程:原创 2025-04-08 20:29:03 · 139 阅读 · 0 评论 -
大模型生长树
原创 2025-04-08 20:11:19 · 87 阅读 · 0 评论 -
MinerU——pdf转为markdown神器
cd Mineru参考:原创 2025-04-08 15:03:01 · 99 阅读 · 0 评论 -
多模态大模型 CLIP, BLIP, BLIP2, LLaVA, miniGPT4, InstructBLIP 系列
其中可学习的K个queries 通过Q-former中共享的 self-attention 和输入指令交互,通过 cross-attention 和输入图片的特征交互,鼓励提取与任务相关的图像特征。视觉+语言的多模态大模型目前主流方法是:借助预训练好的大语言模型和图像编码器,用一个图文特征对齐模块来连接,从而让语言模型理解图像特征并进行更深层的问答推理。这样可以利用已有的大量单模态训练数据训练得到的单模态模型,减少对于高质量图文对数据的依赖,并通过特征对齐、指令微调等方式打通两个模态的表征。原创 2025-04-08 10:53:27 · 542 阅读 · 0 评论 -
Sora结构猜测
方案:VAE Encoder(视频压缩) -> Transform Diffusion (从视频数据中学习分布,并根据条件生成新视频) -> VAE Decoder (视频解压缩)从博客出发,经过学术Survey,可以推断出全貌。一句话结论:Sora是采用了Meta的 DiT (2022.12) 框架,融合了Google的 MAGViT (2022.12) 的Video Tokenize方案,借用Google DeepMind的NaViT (2023.07) 支持了原始比例和分辨率,原创 2025-04-03 17:38:57 · 343 阅读 · 0 评论 -
OPT-175B是如何炼成的
修正代码后,有一次试验,模型效果很好,预测下一个词的准确率很高,正准备庆祝,却发现原来是当初清洗处理数据集时,有人加入了大量的反斜杠转义符却忘记删除,模型准确无误地精确预测了这些反斜杠……以Prompt为例,改一下Prompt的标准格式,比如大小写,模型的效果都大不一样,你很难分辨究竟是因为Prompt的格式问题影响性能,还是模型本身的性能改善了。训练模型就是找出合适的超参,然而这在大模型上是非常困难的事情,适用于小模型的超参未必适用于大模型,所以很难使用先从小模型着手做试验、再扩展到大模型的方法。原创 2025-04-03 16:38:34 · 731 阅读 · 0 评论