
ChatGPT
文章平均质量分 89
wshzd
机器学习,深度学习,NLP,强化学习
展开
-
LLM评估(一)| 大模型评估的四种方法
评估文本摘要的一个主流的评估指标是ROUGE(Recall-Oriented Understudy for Gisting Evaluation),ROUGE将模型生成的文本摘要与人工编写的“groundtruth”参考摘要进行比较。使用特定任务的指标,如用于摘要的ROUGE或用于翻译的BLEU来评估LLM,具有非常可扩展和高效的显著优势:可以快速自动地评估生成的文本的大部分。它只测量生成的摘要和参考摘要之间的unigram重叠,一个完美的ROUGE-1分数意味着两个摘要中的所有单词都是相同的。原创 2024-01-19 09:51:24 · 21269 阅读 · 1 评论 -
LLM(十)| Tiny-Vicuna-1B:Tiny Models轻量化系列Top One
这个小模型是TinyLlama项目的一部分,该项目旨在通过适当的优化,在3万亿tokens上预训练的1.1B Llama模型,但由于Tiny Vicuna 1B是用WizardVicuna数据集微调的TinyLLama 1.1B,因此被称为Tiny Vicuna!source=post_page-----f05e459b8018--------------------------------)我们将使用Huggingface上Jiayi-Pan的Tiny-Vicuna-1B的量化GGUF模型文件。原创 2024-01-16 14:44:54 · 1381 阅读 · 0 评论 -
LLM之幻觉(二):大语言模型LLM幻觉缓减技术综述
与专注于有限任务的传统人工智能系统不同,LLM在训练过程中使用了大量的在线文本数据。收集到的缓解幻觉的工作揭示了一系列不同的策略,每种策略都有助于解决LLM中幻觉的细微差别。结构化比较推理引入了一种结构化的文本偏好预测方法,增强了连贯性,减少了幻觉。特定领域的知识被注入到较弱的LLM和使用反事实数据集来提高真实性的方法中。预防幻觉的最佳方法不是单一的方法,需要综合多种方法。考虑梯度和非梯度方法,以产生连贯和上下文相关的信息。通过反馈和推理的自我完善会产生有影响力的策略。财务分析报告,并提供错误的法律建议。原创 2024-01-15 17:26:56 · 761 阅读 · 0 评论 -
LLM之RAG理论(五)| 使用知识图谱增强RAG
例如,依赖简单的语义相似性搜索进行上下文检索可能并不总是有效的,尤其是当查询缺乏足够的上下文时,或者当相关信息分散在庞大的文本语料库中时。无论是通过利用LLM的知识还是构建广泛的KG文本语料库,这一过程都显著增强了KG到文本的生成,特别是在训练数据有限的情况下。知识图谱表示了任意两个实体之间的关系,在这个结构中,节点表示着诸如人、地点或事件之类的实体,而边表示这些实体之间的连接。例如,Wikidata汇编了维基百科文章中的大量知识,产生了大量多样的KGs,其中包含数百万个实体和多种语言的关系。原创 2024-01-14 15:50:25 · 5154 阅读 · 0 评论 -
LLM漫谈(三)| 使用Chainlit和LangChain构建文档问答的LLM应用程序
Chainlit是一个开源Python包,旨在彻底改变构建和共享语言模型(LM)应用程序的方式。Chainlit可以创建用户界面(UI),类似于由OpenAI开发的ChatGPT用户界面,Chainlit可以开发类似streamlit的web界面。原创 2024-01-14 11:11:11 · 2370 阅读 · 0 评论 -
LLM之RAG实战(十四)| 利用LongContextRetriver克服RAG中的中间丢失现象
研究测试了七种语言模型,包括开源大模型和闭源大模型,包括新的GPT-3.5 16K和Claude 1.3 100K,它们的性能都显示出U型曲线模式,对于在文本开头或结尾找到解决方案的任务,效果更好。根据他们的发现,当这些模型检索信息时,当相关数据位于输入的开始或结束时,它们的性能是最优的。合并后的结果将是与查询相关的文档列表,这些文档已由不同的检索器进行了排序。它首先从所有检索器获取相关文档,然后合并它们,合并后的结果将是与查询相关的文档列表,这些文档已由不同的检索器进行了排序。原创 2024-01-13 15:37:15 · 1466 阅读 · 0 评论 -
LLM之长度外推(二)| Self-Extend:无需微调的自扩展大模型上下文窗口
论文链接:https://simg.baai.ac.cn/paperfile/a34ae7f4-f0ce-4f8f-b8f2-e8e4d84bbee5.pdf 目前大模型基本都采用transformer结构,而transformer中attention机制的计算复杂度与序列长度呈平方关系,因此大模型在训练时候通常会设置固定的上下文窗口,而且也不会太大,比如GPT-4支持32K上下文,但这会限制大模型在推理时处理长序列的能力。 作者认为LLM本身具有处理长上下文的能原创 2024-01-12 19:43:02 · 2124 阅读 · 0 评论 -
大模型PEFT技术原理(一):BitFit、Prefix Tuning、Prompt Tuning
随着预训练模型的参数越来越大,尤其是175B参数大小的GPT3发布以来,让很多中小公司和个人研究员对于大模型的望而却步,近年来研究者们提出了各种各样的参数高效迁移学习方法(Parameter-efficient Transfer Learning),即固定住Pretrain Language model(PLM)的大部分参数,仅调整模型的一小部分参数来达到与全部参数的微调接近的效果(调整的可以是模型自有的参数,也可以是额外加入的一些参数)。原创 2024-01-10 18:15:27 · 1541 阅读 · 0 评论 -
LLM之长度外推(一)| 基于位置编码的长度外推研究综述
在有限的学习资源下,人类可以通过理解它们的组成部分和结构来理解潜在无限长度的话语。在NLP中,这种能力称为模型的长度外推,即在较短的上下文窗口上进行训练,在较长的上下文窗口上进行推理。尽管神经网络在各种任务上取得了惊人的进展,但长度外推对它们来说仍然是一个重大挑战。Transformer被用来环节这一问题。然而,Transformer的优势容量是以相对于输入序列长度的二次计算和内存复杂度为代价的,这导致了基于Transformer的模型的预定义上下文长度限制,通常是512或1024个token。原创 2024-01-10 00:43:41 · 2349 阅读 · 0 评论 -
LLM之LangChain(一)| LangChain六大核心模块简要汇总
OpenAI的Text Completion类型API在2023年7月进行最后一次更新,2020-2022年的模型text-davinci-003、text-davinci-002、Davinci、Curie、Babbage、Ada等只能通过Completion接口访问,而像GPT-3.5-Turbo、GPT-4等模型的访问可以通过Chat Completion来访问。2023年是LLM(大语言模型)的元年,在这一年底座大模型,微调大模型,部署大模型并驾齐驱,发展的如火如荼。原创 2024-01-08 19:48:35 · 2870 阅读 · 0 评论 -
LLM漫谈(二)| QAnything支持任意格式文件或数据库的本地知识库问答系统
QAnything (Question and Answer based on Anything) 是致力于支持任意格式文件或数据库的本地知识库问答系统,可断网安装使用。您的任何格式的本地文件都可以往里扔,即可获得准确、快速、靠谱的问答体验。目前已支持格式: PDF,Word(doc/docx),PPT,Markdown,Eml,TXT,图片(jpg,png等),网页链接,更多格式,敬请期待...原创 2024-01-06 15:47:17 · 3697 阅读 · 0 评论 -
LLM之RAG实战(十三)| 利用MongoDB矢量搜索实现RAG高级检索
但是,当你在一个特定的主题上寻求智慧时,比如神秘的百慕大三角,基本的RAG的粗笔画会覆盖更多细节,给你留下一幅不完整的画面。当我们的洗衣机爱好者询问那个令人讨厌的错误代码时,矢量搜索不仅仅是梳理数据,它还可以精确定位信息的确切位置,这要归功于我们早些时候创建的独特的“数字签名”。想象一下,你是一名侦探,身处庞大的信息世界,试图在堆积如山的数据中找到隐藏的一条重要线索,这就是检索增强生成(RAG)发挥作用的地方,它就像你在人工智能和语言模型世界中的可靠助手。首先,手册被分解成大块——这些是我们的“父”文档。原创 2024-01-06 15:13:20 · 2816 阅读 · 0 评论 -
LLM之RAG实战(十二)| 在RAG管道中实现上下文压缩和过滤
在RAG中可能面临的最大问题之一是检索器应该检索什么内容? 实际使用中,检索到的上下文并不完全有用,可能检索处理较大的块中只有非常小的一部分与答案相关,还可能对于一个特定的问题需要来自多个块合并来得到答案。原创 2024-01-05 16:45:53 · 2167 阅读 · 0 评论 -
LLM(九)| 使用LlamaIndex本地运行Mixtral 8x7大模型
欧洲人工智能巨头Mistral AI最近开源Mixtral 8x7b大模型,是一个“专家混合”模型,由八个70亿参数的模型组成。以前,安装并运行本地模型是一件巨大的痛苦,但随着Ollama的发布,这变得简单了!它适用于MacOS和Linux(很快就会在Windows上使用,尽管你现在可以通过Windows Subsystem for Linux在Windows中使用它),是开源的,可以免费下载(https://ollama.ai/download)。第一次运行此命令时,需要下载模型,这可能需要很长时间。原创 2024-01-04 14:28:26 · 2026 阅读 · 0 评论 -
LLM之RAG理论(四)| RAG高级数据索引技术
例如,当解决有关SageMaker处理的特定方面的问题时,系统可以准确地识别与该特定部分相关的信息并对其进行优先级排序,避免与SageMaker模型构建无意中混淆,后者可能有共同之处,但需要不同的考虑。最终实现通用人工智能(AGI)的期望是由对人工智能初创公司的重大投资、最新进步背后的创造性思维以及更强大但更实惠的芯片的可用性推动的,尽管AGI完全融入我们的个人生活可能需要一段时间。较大的块可以捕获更多的上下文,但由于它们产生的噪声,处理它们需要更长的时间和更多的钱。原创 2024-01-02 17:48:11 · 2427 阅读 · 0 评论 -
LLM之RAG实战(十一)| 使用Mistral-7B和Langchain搭建基于PDF文件的聊天机器人
Mistral-7B是一个强大的语言模型(目前是开源的),具有73亿个参数,性能优于很多参数量更高的大模型。在处理文本、图像、音频、视频、文档等数据时,通常首先会进行embedding把他们表示成数字类型,这样便于神经网络处理,embedding不仅仅是一种数字表示,它也可以捕捉数据的上下文语义信息。pypdf库可以读取、拆分、合并、裁剪、转换pdf文件的页面,添加自定义数据,更改查看选项,为pdf文件添加密码,从pdf文件中检索文本和元数据。操作包括——使用工具,观察工具的输出,向用户返回响应。原创 2023-12-29 10:32:19 · 2157 阅读 · 0 评论 -
LLM之RAG实战(十)| 如何构建一个RAG支持的聊天机器人,包括聊天、嵌入和重排序
在人工智能和机器学习不断发展的环境中,聊天机器人变得越来越复杂,从简单的基于规则的回复转变为基于上下文的对话。在这篇博客文章中,我们将深入研究创建一个RAG支持的聊天机器人,该聊天机器人利用先进的NLP模型进行聊天、嵌入和重新排序,并使用。通过将Cohere的NLP模型和高效的文档检索相结合,您可以创建一个聊天机器人,它不仅能理解上下文,还能提供知情和准确的回复。一旦文档准备好并表示为嵌入,就可以使用hnswlib创建一个高效的索引,聊天机器人根据查询嵌入快速检索最相关的文档。进行高效的文档检索。原创 2023-12-28 16:17:03 · 967 阅读 · 0 评论 -
LLM之RAG实战(九)| 高级RAG 03:多文档RAG体系结构
它能够基于结构化元数据动态选择文档,再加上语义查询优化的技巧,重塑了我们如何利用庞大文档存储库中的知识,提高了检索过程的效率、相关性和准确性。此转换包含一个链接回源文档的索引ID,此链接支持在后面的部分中进行递归检索,依靠IndexNode对象与下游检索器、查询引擎或其他节点连接。这种类型的检索器将检索器的每个节点连接到另一个检索器、查询引擎或节点。该设置包括将每个汇总的元数据节点链接到与相应文档对应的RAG管道对齐的检索器。:通过利用元数据驱动的过滤器,可以准确地识别和检索符合用户查询细微要求的文档。原创 2023-12-28 15:45:50 · 2657 阅读 · 0 评论 -
LLM之RAG理论(三)| 高级RAG技术全面汇总
让我们看一看多文档代理方案(https://docs.llamaindex.ai/en/stable/examples/agent/multi_document_agents.html)——一个非常复杂的设置,包括在每个文档上初始化一个代理(OpenAIAgent(https://docs.llamaindex.ai/en/stable/examples/agent/openai_agent.html)),能够进行文档摘要和经典的QA机制,以及一个顶级代理,负责将查询路由到文档代理并进行最终答案合成。原创 2023-12-27 23:34:19 · 2955 阅读 · 0 评论 -
LLM(八)| Gemini语言能力深度观察
首先,从图11中的总体结果来看,可以看到Gemini Pro在GSM8K、SVAMP和ASDIV任务上的精度略低于GPT 3.5 Turbo,远低于GPT 4 Turbo,这些任务都包含不同的语言模式。从这个图中,可以看到Gemini的标签分布非常偏斜,偏向于选择“D”的最终选择,这与GPT模型的结果形成了对比,后者更平衡。然而,作者发现,对于一些模型,即使在生成正确答案的情况下,他们也不会逐字逐句地生成这句话,特别是在选择题任务中,答案是从问题文本中选择的选项(例如,“答案:(B)”)。原创 2023-12-26 16:25:58 · 1082 阅读 · 0 评论 -
LLM之RAG理论(二)| RAG综述论文详解
论文地址:https://arxiv.org/pdf/2312.10997.pdf 大型语言模型(LLMs)展示了强大的能力,但在实际应用中仍面临挑战,如幻觉现象、知识更新缓慢,以及在回答中缺乏透明度。检索增强生成(RAG)指的是在使用LLMs回答问题之前,从外部知识库中检索相关信息。RAG已被证明能显著提高答案的准确性,减少模型的幻觉现象,特别是对于知识密集型任务。通过引用来源,用户可以验证答案的准确性,并增加对模型输出的信任。它还促进了知识更新和特定领域知识的引入。RAG有效地结合原创 2023-12-24 16:56:33 · 3499 阅读 · 0 评论 -
LLM漫谈(一)| LLM可以取代数据分析师吗?
为了更方便地定义函数,我们可以利用Pydantic。Pydantic是用于数据验证的最流行的Python库。我们已经使用Pydantic定义了LangChain输出解析器。首先,我们需要创建一个继承自BaseModel类的类,并定义所有字段(函数的参数)。原创 2023-12-23 11:39:09 · 1228 阅读 · 0 评论 -
LLM之RAG实战(八)| 使用Neo4j和LlamaIndex实现多模态RAG
我们可以在RAG应用程序中使用其理解图像的能力,在该应用程序中,我们现在可以将文本和图片中的信息结合起来,生成比以往任何时候都更准确的答案,而不仅仅依靠文本来生成准确和最新的答案。另一方面,我们可以使用图像作为RAG管道的输入,并增强传递给LLM的各种信息,使响应更好、更准确。要使用LlamaIndex实现多模态RAG管道,只需实例化两个矢量存储,一个用于图像,另一个用于文本,然后查询这两个矢量,以便检索相关信息以生成最终答案。如前所述,我们必须实例化两个矢量存储,一个用于图像,另一个用于文本。原创 2023-12-22 14:57:48 · 3894 阅读 · 0 评论 -
LLM微调(四)| 微调Llama 2实现Text-to-SQL,并使用LlamaIndex在数据库上进行推理
微调有不同的方法,可以更新模型的所有参数(比如:全量微调),也可以冻结大模型参数仅微调附加参数(比如:LoRA)。:来自Hugging Face的b-mc2/sql-create-context(https://huggingface.co/datasets/b-mc2/sql-create-context)该模型已经进行了微调,可以从云端提供服务。下面我们使用b-mc2/sql-create-context中的示例数据进行一些基本评估,比较微调后模型与原始Llama 2模型的性能。原创 2023-12-21 14:10:10 · 3454 阅读 · 0 评论 -
LLM之RAG实战(七)| 使用llama_index实现多模态RAG
通过处理任意文档(比如PDF、网页),将其切分为块并存储到向量数据库中,然后通过检索到相关的块输入给LLM,让LLM给出用户期待的回复。GPT-4V是一个多模态模型,可以接收文本/图像,并可以输出文本响应。与我们现有的(最流行的)索引VectorStoreIndex不同,这个新索引可以存储文本和图像文档。我们将图像和文本分开存储,因为我们可能希望对文本使用纯文本嵌入模型,而不是CLIP嵌入(例如ada或sbert)。与之前是一样的——使用文本嵌入模型嵌入的,并存储在矢量数据库中。原创 2023-12-21 11:02:33 · 3195 阅读 · 0 评论 -
LLM之RAG实战(六)| 高级RAG 02:选择最佳embedding和重排序模型
值得注意的是,对于这个特定的实验,我们将similarity_top_k设置为10,并用reranker选择了前5名。为了衡量我们的检索系统的有效性,我们选择被广泛接受的两个指标:Hit Rate和 Mean Reciprocal Rank (MRR)。在这篇博客文章中,我们展示了如何使用各种embedding和重排序来评估和增强检索器的性能。为了评估我们的检索器,我们计算了平均倒数排名(MRR)和命中率指标:。过滤句子的函数,例如——以下是基于所提供上下文的两个问题。原创 2023-12-19 19:48:03 · 4924 阅读 · 0 评论 -
LLM之RAG实战(五)| 高级RAG 01:使用小块检索,小块所属的大块喂给LLM,可以提高RAG性能
在基本的RAG管道中,我们嵌入一个大的文本块进行检索,而这个完全相同的文本块用于合成。使用较小的文本块可以提高检索的准确性,而较大的文本块则提供更多的上下文信息。小到大检索背后的概念是在检索过程中使用较小的文本块,然后将检索到的文本所属的较大文本块提供给大语言模型。在这一系列的博客文章/视频中,我将介绍先进的RAG技术,旨在优化RAG工作流程,并解决原始RAG系统中的挑战。最好了解更多的工具并灵活使用它们。当我们提出问题并检索最相关的文本块时,它实际上会检索节点id指向父块的文本块,从而检索父块。原创 2023-12-19 00:58:21 · 2002 阅读 · 0 评论 -
LLM之Agent(七)| AutoGen介绍
例如,要构建一个基于代码的问答系统,可以如下图所示设计代理及其交互,这样的系统可以在像 supply-chain optimization(https://github.com/microsoft/OptiGuide)的应用中可以将所需的手动交互次数从3倍减少到10倍。下面我们以FizzBuzz游戏进行演示autogen的使用方法,FizzBuzz游戏是一个报数游戏,从1开始报数,如果这个数可以被3整除,你就要改为说"Fizz",如果能被5整除,就改为说"Buzz"。带阴影的圆表示可以重复多次的步骤。原创 2023-12-18 18:41:46 · 2706 阅读 · 0 评论 -
LLM之Agent(六)| 使用AutoGen、LangChian、RAG以及函数调用构建超级对话系统
当这些组件结合在一起时,能够更有效地处理复杂的任务,生成更相关和更了解上下文的内容,响应将更加强大和通用。User Proxy代理包括一个独特的功能:function_map参数,此参数用于将函数调用的配置与实际函数本身链接起来,确保无缝集成和操作。AutoGen不仅仅是一种工具,它也是协作人工智能的未来,多个智能体聚集在一起,将想法转化为现实,人工智能智能体团结、创新和提升。函数调用和Agent有各种组合,在这里我们将通过函数调用调用RAG检索增强生成机制,并使用结果生成输出。原创 2023-12-15 17:18:42 · 3067 阅读 · 1 评论 -
LLM(七)| Mamba:LLM新架构的浅探
在有人想出如何正确应用这样的东西之前,我们将不得不依赖基准(https://github.com/EleutherAI/lm-evaluation-harness)测试、聊天机器人竞技场(https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard)和人工智能裁判(https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard)。接下来,我们将探索一种更高级的方法。原创 2023-12-15 12:24:57 · 2420 阅读 · 1 评论 -
LLM之RAG实战(四):Self-RAG如何革命工业LLM
self-RAG会训练一个任意的LM(比如Llama2–7B和13B),使其能够反思自己的生成过程,并生成任务输出和中间的特殊tokens(reflection tokens)(比如[Retrieval], [No Retrieval], [Relevant], [Irrelevant], [No support / Contradictory], [Partially supported], [Utility]等)。例如,一份包含X公司过去15年的年收入的文件,但分为不同的部分。然而,这可能有几个问题。原创 2023-12-14 21:28:02 · 1457 阅读 · 1 评论 -
LLM(六)| Gemini:谷歌Gemini Pro 开放API ,Gemini Pro 可免费使用
虽然genai.embedd_content函数接受简单的字符串或字符串列表,但它实际上是围绕glm.Content类型构建的(比如GemerativeModel.generate_content)。Gemini提供了一个多模态模型(Gemini-pro-vision),可以接受文本、图像和输入。可处理文本输入并生成文本输出,以及专门的 Gemini Pro 视觉多模态终端,能够处理图像和文本输入,输出文本。然而,glm.Content对象是多模态的,embedd_content方法只支持文本嵌入。原创 2023-12-14 15:41:29 · 1879 阅读 · 7 评论 -
LLM推理部署(六):TogetherAI推出世界上LLM最快推理引擎,性能超过vLLM和TGI三倍
Together推理引擎可以支持100多个开源大模型,比如Llama-2,并在Llama-2–70B-Chat上每秒生成117个tokens,在Llama2–13B-Chat中每秒生成171个tokens。是LLM的一个抽象基类,这意味着它为其他类提供了一个模板,但并不意味着它自己被实例化。它旨在通过在内部处理LLM的复杂性,为LLM的工作提供一个更简单的界面,允许用户更容易地与这些模型交互。你可能已经注意到,随着聊天历史的增长,很难管理模型的上下文窗口,有几种策略可以处理它,后面会继续分享,敬请期待。原创 2023-12-13 16:11:48 · 1794 阅读 · 0 评论 -
OpenAI Q* (Q Star)简单介绍
Q-learning 是强化学习(Reinforcement Learning)的一种,它是一种通过奖励做出正确决定的计算机,有时也惩罚做出错误决定的计算机的学习方法。这就好比训练宠物:如果宠物做了好事(比如听指令坐下),你就给它点吃的;如果它做了不太好的事(比如咬你的鞋子),你可能会说 "不 "或不理它。1.环境(environment)和Agent在 Q-learning 中,你有一个 "环境"(如视频游戏或迷宫)和一个 "Agent"(人工智能或计算机程序),后者需要学习如何在这个环境中导航。原创 2023-12-12 23:47:16 · 758 阅读 · 0 评论 -
LLM之RAG理论(一)| CoN:腾讯提出笔记链(CHAIN-OF-NOTE)来提高检索增强模型(RAG)的透明度
这些例子说明了CON框架如何处理不同类型的文档:直接使用相关文档中的信息,从上下文有用的文档中推断答案,并承认知识或无关信息中的差距。生成笔记:“虽然该文件没有直接解释光合作用,但它提供了有关植物生物学的有用信息,表明光合作用是植物将光转化为能量的过程。笔记链(CON)框架根据检索到的文档与输入问题的相关性生成三种类型的阅读笔记。生成的笔记:“检索到的文档不包括量子计算,而是专注于经典计算技术。最后回应:“光合作用是植物将光转化为能量的过程,包括叶绿素对光的吸收以及二氧化碳和水转化为葡萄糖和氧气。原创 2023-12-12 23:08:58 · 744 阅读 · 0 评论 -
LLM之RAG实战(三):LlamaIndex解锁自定义LLM关键步骤分块、索引、查询介绍
LLamaIndex是一个由Jerry Liu创建的Python库,它可以使用语言模型对大型文档集进行高效的文本搜索和摘要。开发人员可以使用LLamaIndex快速添加私有/自定义数据,以增强现有的LLM。它不需要对大模型进行再训练,即可提供个性化和数据驱动的响应。由于大模型的上下文有限,处理超大文档的成本很高,而通过对原始文本上进行关键词搜索的效率是非常低的。为了克服这些挑战,LLamaIndex采用了两种关键策略。首先,它将文档分为较小的上下文,如句子或段落,这些上下文被称为节点。原创 2023-12-12 17:05:46 · 2443 阅读 · 0 评论 -
LLM之Prompt(三)| XoT:使用强化学习和蒙特卡罗树搜索将外部知识注入Prompt中,性能超过CoT,ToT和GoT
这种扩展涉及对其值和状态的作用概率的评估,这些值和作用概率由θ参数化的神经网络建模,(Pθ(s), vθ(s)) = fθ(s)。对于未探索的节点,这种更新涉及计算其估计值vθ的平均值,而对于终止的节点,它是基于真实奖励r。:在MCTS完成搜索后,提取思想并将其提供给LLM。:LLM审查MCTS生成的thought,并识别其中可能的任何错误,如果有错误,再通过额外的MCTS模拟产生修正后的thought;:在推理过程中,预训练的MCTS模块使用策略/价值网络来有效地探索和生成LLM的thought轨迹;原创 2023-12-11 11:48:03 · 1518 阅读 · 0 评论 -
LLM之Agent(五)| AgentTuning:清华大学与智谱AI提出AgentTuning提高大语言模型Agent能力
给模型提供当前的指令和必要的信息。在ChatGPT带来了大模型的蓬勃发展,开源LLM层出不穷,虽然这些开源的LLM在各自任务中表现出色,但是在真实环境下作为AI Agent仍与商业模型的效果存在较大差距,比如ChatGPT和GPT-4等。收集到轨迹后,执行参考SQL语句并将结果与来自GPT-4的结果进行比较,过滤掉错误的答案,只收集正确的轨迹。考虑到现有的对话模型通常包括两个角色,用户和模型,ui表示来自用户的输入,ai表示来自的响应模型每个轨迹都有一个最终奖励r∈[0,1],反映了任务的完成状态。原创 2023-12-09 13:36:44 · 1339 阅读 · 0 评论 -
LLM微调(三)| 大模型中RLHF + Reward Model + PPO技术解析
基于人类的反馈数据来训练一个奖励模型,该模型会在RLHF中被调用,并且不需要人类的参与,就可以根据用户不同的Prompt来分配不同的奖励reward,这个过程被称为”Rollout“。原创 2023-12-08 12:09:07 · 7704 阅读 · 0 评论 -
LLM(五)| Gemini:谷歌发布碾压GPT-4最强原生多模态,语言理解能力首次超过人类
我们对网络攻击、说服和自主等潜在风险领域进行了新的研究(https://deepmind.google/discover/blog/an-early-warning-system-for-novel-ai-risks/),并应用了谷歌研究公司同类最佳的对抗性测试技术(https://blog.research.google/2023/11/responsible-ai-at-google-research_16.html),以帮助在部署Gemini之前识别关键的安全问题。有关这项工作的更多细节即将公布。原创 2023-12-07 16:19:51 · 392 阅读 · 0 评论