
大语言模型
文章平均质量分 82
AIGC & LLM
从流域到海域
此人不懒,但他除了干货什么都没有留下。
展开
-
微软PIKE-RAG:多层次多粒度体系化智能化的知识库构建方案
从问题拆解和定义,知识库成熟度设计,L1~L4级别知识库的详细设计,系统性说明了微软PIKE-RAG工作。原创 2025-03-10 01:39:25 · 1297 阅读 · 0 评论 -
大厂内部千人分享:DeepSeek核心贡献是什么,如何改变了AI格局
大厂内部千人分享:本文介绍了RL背景知识、DeepSeek的三样核心贡献、开放性讨论内容,从原理到意义说明了DeepSeek如何重塑AI格局。原创 2025-02-18 12:51:53 · 193 阅读 · 0 评论 -
DeepSeek核心贡献是什么,如何改变了AI格局(概述版)
本文介绍了DeepSeek的三样核心贡献,从原理到意义说明了DeepSeek如何重塑AI格局。原创 2025-02-08 10:00:00 · 1141 阅读 · 0 评论 -
优快云百万访问纪念:AI时代,大模型对知识创作的冲击
AI时代,大模型对知识创作的冲击从Python开始的博客之路AI从不生产内容,AI只是内容的搬运工 / 复读机粗浅内容将被大模型替代,我们需要更有深度的内容劣质内容将被大模型替代,我们需要更多优质的内容乐观看待变化原创 2025-01-02 11:22:19 · 1391 阅读 · 0 评论 -
Rerank进一步提升RAG效果
介绍了 RAG(Retrieval Augmented Generation,检索增强生成)with Rerank,并详细讲述了 Rerank 的必要性以及二阶段检索的流程。原创 2024-05-12 17:57:50 · 2407 阅读 · 2 评论 -
Chroma向量数据库支持的距离计算公式
chroma支持l2,ip,cosine三种向量间距离计算公式原创 2023-11-28 15:46:18 · 2377 阅读 · 0 评论 -
最强英文开源模型Llama2架构与技术细节探秘
llama2、llama-chat、llama-code原创 2023-11-20 21:21:58 · 1676 阅读 · 0 评论 -
NEFTune: 通过简单的噪声提升指令精调效果
NEFTune方法的原理仅使用一句话就可以描述清楚:在finetune过程的词向量中引入一些均匀分布的噪声即可明显地提升模型的表现原创 2023-11-16 22:33:42 · 1815 阅读 · 0 评论 -
最强英文开源模型LLaMA架构探秘,从原理到源码
LLaMA架构,三个关键点及对应原理,一些实现源码原创 2023-10-22 18:17:42 · 3713 阅读 · 0 评论 -
Alpaca构建方式探秘:低成本构造指令数据增强LLM
Alpaca是斯坦福大学在Meta开源的大模型LLaMA 7B基础上使用自构建的52K指令数据重新训练得到的增强模型,它的数据构造和训练成本极低,总计约600美元(数据构建500美元+机器训练100美元),效果却逼近OpenAI的,这篇博客和大家一起学习下alpaca的构建方法。原创 2023-09-17 18:35:29 · 1738 阅读 · 0 评论 -
LangChain 手记 Conclusion结语
本系列短课展示了大量使用LangChain构建的大语言模型应用,包括处理用户反馈、文档上的问答系统甚至使用LLM来决定发起外部工具的调用(比如搜索)来回答复杂问题。使用LangChain的好处在于能很大程度上提升开发效率,仅需要适量代码,就可以实现复杂的llm应用。课程作者希望大家可以从中学习到一些idea,jupyter notebook的代码块也可以直接复制使用。原创 2023-08-19 10:27:26 · 249 阅读 · 0 评论 -
LangChain手记 Agent 智能体
前面都是使用LangChain已经内置的工具,下面介绍一个自定义工具的例子:注意:函数说明是必要的,它指定了函数的使用方式,这里要求time函数的输入为空串。原创 2023-08-18 01:14:56 · 922 阅读 · 0 评论 -
LangChain手记 Evalutation评估
基于LLM的应用如何做评估是一个难点,本节介绍了一些思路和工具。“从传统开发转换到基于prompt的开发,开发使用LLM的应用,整个工作流的评估方式需要重新考虑,本节会介绍很多激动人心的概念。原创 2023-08-17 22:58:23 · 797 阅读 · 0 评论 -
LangChain手记 Question Answer 问答系统
本节介绍使用LangChian构建文档上的问答系统,可以实现给定一个PDF文档,询问关于文档上出现过的某个信息点,LLM可以给出关于该信息点的详情信息。这种使用方式比较灵活,因为并没有使用PDF上的文本对模型进行训练就可以实现文档上的信息点问答。本节介绍的Chain也比较常用,它涉及到了嵌入(embedding)和向量存储(vector store)。原创 2023-08-16 01:46:10 · 2196 阅读 · 0 评论 -
LangChain手记 Memory
使用open ai的API调用GPT都是单次调用,所以模型并不记得之前的对话,多轮对话的实现其实是将前面轮次的对话过程保留,在下次对话时作为输入的message数组的一部分,再将新一轮对话的提问也放入message数组,再发起一次API调用,即构手动建对话流(以上笔者注)。方法构建对话历史(笔者注:此时对话历史中AI的回答是人为指定的,不是真实的GPT回复,这里是为了演示,实际使用时不推荐这么做,GPT的真实回复可能和指定的不同,并没有完全使用GPT)。内存储了所有的对话历史,不含输入提示词的其他部分。原创 2023-08-14 01:27:58 · 3397 阅读 · 0 评论 -
LangChain手记 Models,Prompts and Parsers
response.content结果是字符串类型,无法直接提取其中的信息,使用LangChain提供的解析器可以解析其中的变量。作为思维链推理(Chain-of-Thought Reasoning.(ReAct框架))的关键词。LangChian库函数以假定输出包含某些关键字的方式解析大语言模型的输出。(推测35到38之间少了一些代码展示,参见LangChian API)也能直接实现目的,应该是在更复杂的场景使用的。调用LangChain使用。这个例子举得其实不好,原创 2023-08-14 00:11:38 · 1217 阅读 · 0 评论 -
LangChain手记 Overview
LangChain目前提供Python和JavaScript(TypeScript)两种语言的包。LangChain是为大模型应用开发设计的开源框架。LangChain的主攻方向是聚合和模块化。提示词 + 大语言模型 + 输出解析。提供超过20种更专注于应用的思维链。可以做为更长思维的构件模块使用。实现了50种以上的文档加载器。集成或实现了5种以上的检索器。实现了10多种文本分割器。集成了10多种向量存储。原创 2023-08-07 00:12:15 · 1027 阅读 · 0 评论 -
LoRA: 大模型快速训练的秘诀
LoRA核心思路是对模型参数做低秩分解,仅训练分解后的参数,模型部署也需额外保存低秩参数,计算时加上低秩参数部原创 2023-07-13 00:31:12 · 1304 阅读 · 0 评论 -
大模型基础知识 - 语言模型及其演进 公开版
1. 概率语言模型设计用于计算一个句话在自然语言中出现的概率2. 语言建模(即训练语言模型的过程):给定n个单词,预测第n+1个单词是什么。神经网络语言模型使用神经网络进行语言建模。3. 神经网络语言模型随着自然语言处理领域不断提出新的网络架构逐步演进,transformer是其中一个标志性里程碑。基于transformer,Google和Open AI分别提出了BERT和GPT 1.0/2.0.4. 随着参数量级继续增大,涌现能力出现,加上训练流程改进,大语言模型出时代到来。原创 2023-07-13 00:18:44 · 1597 阅读 · 0 评论 -
四两拨千斤,训练大模型的PEFT方法
截止目前(2023年7月),PEFT一共有三类方法,不同的方法在以不同的形式在固定预训练模型参数的前提下添加少量的新参数来实现对下游任务的适配。原创 2023-07-12 00:59:16 · 1677 阅读 · 0 评论 -
ChatGPT训练流程
ChatGPT训练流程:1. PreTraining 2. Instruction Finetuning 3. RLHF: Reward Modeling 4. RLHF: Reinforcement Learning原创 2023-07-10 15:02:40 · 3173 阅读 · 0 评论 -
大语言模型高效训练基础知识:优化器AdamW和Adafator
Adam优化算法很长一段时间都是比较主流的参数更新算法,也有很多变种,本文介绍在大模型训练过程中使用的AdamW和Adafator。原创 2023-07-09 00:41:00 · 3809 阅读 · 0 评论 -
大模型高效训练基础知识:fp16与混合精度训练
在计算激活值和梯度的时候以fp16精度存储,执行优化算法的时候还原为fp32(缺失位补0),这样最终的效果是模型在GPU上以fp16和fp32两种方式加载,这被称为混合精度训练(mixed precision training)原创 2023-07-08 11:25:20 · 3422 阅读 · 0 评论 -
大模型高效训练基础知识:梯度检查点(Gradient Checkpointing)
前向传播过程中计算节点的激活值并保存,计算下一个节点完成后丢弃中间节点的激活值,反向传播时如果有保存下来的梯度就直接使用,如果没有就使用保存下来的前一个节点的梯度重新计算当前节点的梯度再使用。原创 2023-07-08 10:30:55 · 9376 阅读 · 0 评论 -
大模型高效训练基础知识:梯度累积(Gradient Accumulationn)
梯度累积(Gradient Accumulation)的基本思想是将一次性的整批参数更新的梯度计算变为以一小步一小步的方式进行原创 2023-07-08 01:36:31 · 1906 阅读 · 0 评论 -
给开发者的ChatGPT提示词工程指南
基本大语言模型和指令精调大语言模型的区别:指令精调大语言模型经过遵从指令的训练,即通过RLHF(基于人类反馈的强化学习)方式在指令上精调过,因而更加有帮助,更加真诚,更不可能产生有害输出。clear不等于short,比较长的指令有可能时更加清晰的。Triple quotes: “”"Triple backtick ```Triple dashes: —Angle brackets: XML tags: 使用分隔符可以防止指令注入,即误把目标文本中的指令识别为指令,下图为例:HTML, J原创 2023-06-16 01:11:55 · 2891 阅读 · 0 评论