LLM
文章平均质量分 91
六神就是我
万物不仁,天地为刍狗
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【LLM之评测】AlignBench: Benchmarking Chinese Alignment of Large Language Models
当前大语言模型(LLMs)的发展迅速,尤其是以中文为主的模型。然而,LLMs 的alignment(对齐)是其成为有用助手的关键步骤,包括遵循人类指令和满足人类偏好的能力。然而,对于中文大语言模型的对齐效果评估仍缺乏系统研究。因此,该研究提出 AlignBench,这是一个全面的多维基准,用于评估中文大语言模型在真实场景中的对齐能力。原创 2025-04-03 14:19:33 · 1238 阅读 · 0 评论 -
【LLM之评测】使用opencompass对alignbench进行主观评测
alignbench是由智普、清华等机构联合发布的测试数据集,采用多维度、规则校准的模型评价方法(LLM-as-Judge),并且结合思维链(Chain-of-Thought)生成对模型回复的多维度分析和最终的综合评分,其中数据共683条。是由上海人工智能实验室研发的面向大模型评测的一站式平台,并作为大模型标准测试工具被Meta AI官方推荐。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力。原创 2025-01-08 14:53:08 · 1323 阅读 · 0 评论 -
【LLM之评测】opencompass使用自定义接口与自定义数据集进行评测
opencompass使用自定义接口和自定义数据集进行评测原创 2025-01-03 15:02:28 · 2119 阅读 · 0 评论 -
【LLM之Agent】《Tool Learning with Large Language Models: A Survey》论文阅读笔记
论文的目标是通过对工具学习的“为什么”和“如何”这两个方面进行探讨,来全面理解LLMs与工具结合的过程及其优势。具体而言,论文首先从工具集成的益处和工具学习范式固有的优势两个方面探讨了工具学习的意义,其次从任务规划、工具选择、工具调用和响应生成四个阶段,系统回顾了工具学习的实现方式。原创 2024-10-23 14:34:02 · 2288 阅读 · 0 评论 -
【LLM之RAG】HybridRAG论文阅读笔记
在上下文精度方面,GraphRAG表现最好,达到0.96,而HybridRAG的上下文召回率达到了1.0,这表明该方法能够有效结合结构化和非结构化数据,提供高质量的答案。现有的技术虽然在一些场景中有效,但在面对金融文档的复杂性时,往往无法处理文档的多样性和层次性。劣势:由于 HybridRAG 结合了多种上下文,有时可能会在生成答案时引入额外的、不必要的上下文信息,这会影响答案的精确度。意义:上下文精度指标用于衡量检索系统在前K个结果中的有效性,确保高精度的上下文片段被优先检索,从而提高生成答案的质量。原创 2024-10-16 10:07:52 · 1698 阅读 · 1 评论 -
【LLM之Data】WizardLM论文阅读笔记
研究者们开始探索通过自动化方法生成大规模且复杂的指令数据,以提高LLMs的表现。Evol-Instruct方法便是在这一背景下提出的,它通过使用LLMs来自动生成不同难度级别的开放域指令数据,从而减少对人工创建指令的依赖,并提高LLMs处理复杂任务的能力。原创 2024-09-06 10:34:25 · 1458 阅读 · 1 评论 -
【LLM之Data】SKYSCRIPT-100M论文阅读笔记
本研究的目标是构建一个大规模的剧本-拍摄脚本配对数据集(SkyScript-100M),涵盖了10亿对剧本与拍摄脚本。这一数据集旨在支持短剧生成模型的开发,通过丰富的多模态信息(如场景描述、人物关系、镜头信息等)提升模型在生成短剧时的表现。本研究不仅探索了如何自动化生成高质量的短剧剧本,还提出了一种新的短剧生成范式。原创 2024-08-24 15:32:21 · 1862 阅读 · 0 评论 -
【LLM之Data】Persona Hub论文阅读笔记
本文提出了一种基于“角色驱动”的合成数据生成方法,旨在通过构建一个包含10亿个角色的“Persona Hub”来从不同的视角生成多样化的数据。这些角色作为世界知识的分布式载体,能够指导LLM生成与之相匹配的多样性数据。研究目标包括展示该方法在多种场景(如数学问题、逻辑推理问题、用户指令、知识丰富文本、游戏NPC及工具开发)中的应用,并探讨其在推动LLM研究与应用中的潜在价值。原创 2024-08-22 16:44:05 · 1293 阅读 · 0 评论 -
【LLM之Base Model】Weaver论文阅读笔记
Weaver模型系列旨在通过预训练和特定领域的对齐,使LLMs在创意和专业写作方面表现得更加人性化和多样化。Weaver通过引入一系列新的数据合成和对齐方法,使其能够生成更具创造性和符合人类风格的文本,从而满足内容创作的多样需求。原创 2024-08-19 11:00:24 · 1073 阅读 · 0 评论 -
【LLM之RAG】GraphRAG论文阅读笔记
本文探讨了大型语言模型(LLM)如何通过从外部知识源检索相关信息来回答关于私有或之前未见过的文档集合的问题。特别指出,传统的检索增强生成(RAG)系统在处理全局问题时存在局限性,例如问整个文本语料库的主题是什么,因为这些问题本质上是查询焦点的摘要(QFS)任务,而不仅仅是一个显式的检索任务。原创 2024-08-14 19:25:12 · 1739 阅读 · 1 评论 -
【LLM之Agent】ReAct论文阅读笔记
论文介绍了 "ReAct" 范式,该范式旨在融合推理和行动的功能,通过让大型语言模型(LLMs)生成既包括言语推理轨迹又包括行动序列的输出,解决多种语言推理和决策任务。这种方法允许模型在与外部环境(如Wikipedia)交互时动态地进行推理和调整计划。原创 2024-07-10 10:01:48 · 1788 阅读 · 0 评论 -
【LLM之KG】CoK论文阅读笔记
本研究提出了一种新的链式知识(Chain-of-Knowledge, CoK)提示方法,通过引导LLMs生成明确的知识证据来提高推理能力。具体来说,CoK提示由证据三元组(CoK-ET)和解释提示(CoK-EH)组成,旨在生成明确的知识证据和解释,以支持逐步思考过程。同时,引入了F2验证方法来评估推理链的真实性和可靠性。原创 2024-06-23 22:23:27 · 1165 阅读 · 3 评论 -
【LLM之KG】KoPA论文阅读笔记
本文的研究目标是探索如何将结构信息融入大型语言模型(LLM),以提高其在**知识图谱补全**任务中的表现。具体来说,是通过结构嵌入预训练和知识前缀适配器(KoPA)来实现结构信息的有效利用。原创 2024-06-22 20:43:51 · 1421 阅读 · 0 评论 -
【LLM之KG】TOG论文阅读笔记
本文针对大型语言模型(LLMs)在处理深度和负责任的推理任务时常见的幻觉问题进行研究,特别是在需要**深层次逻辑链**和**多跳知识推理**的场景中。为了解决这些问题,作者提出通过结合外部知识图谱(KGs)来增强LLMs的推理能力。原创 2024-06-21 11:22:13 · 1517 阅读 · 1 评论 -
【LLM之NL2SQL】DAIL-SQL论文阅读笔记
该研究旨在提供一个全面、系统的评估框架,用于评估基于大型语言模型(LLM)的Text-to-SQL技术。特别强调了不同的提示工程策略的有效性和效率,以及开源LLM的可行性。研究的重点是评估在零样本和少样本场景下的不同问题表示方式,样本选择和组织策略的效果。原创 2024-06-20 15:47:14 · 1934 阅读 · 0 评论 -
【LLM之NL2SQL】DIN-SQL论文阅读笔记
研究关注于使用大型语言模型(LLMs)进行复杂的Text-to-SQL任务,目标是弥补精调模型与基于提示的方法之间的差距。早期系统依赖于特定领域或基于规则的方法,而最近的系统利用深度神经网络模型和LLMs,以提高领域独立性和效率。原创 2024-06-18 12:41:00 · 1769 阅读 · 1 评论 -
【LLM之RAG】RAT论文阅读笔记
近年来,大型语言模型(LLMs)在各种自然语言推理任务上取得了显著进展,尤其是在结合大规模模型和复杂提示策略(如链式思维提示(CoT))时。然而,LLMs 在推理的事实准确性方面存在越来越多的担忧,特别是在零样本 CoT 提示和需要多步骤和上下文感知推理的长视野生成任务中。这些任务包括代码生成、任务规划、数学推理等,需要事实正确的中间思维过程来成功完成任务。原创 2024-06-17 10:25:58 · 1583 阅读 · 1 评论 -
【LLM之RAG】Adaptive-RAG论文阅读笔记
文章介绍了大型语言模型(LLMs)在处理各种复杂查询时的挑战,特别是在不同复杂性的查询处理上可能导致不必要的计算开销或处理不足的问题。为了解决这一问题,文章提出了一种自适应的查询处理框架,**动态选择最合适的策略**,从而提高整体效率和准确性 。原创 2024-06-14 10:18:11 · 1982 阅读 · 0 评论 -
【LLM之RAG】Self-RAG论文阅读笔记
尽管大型语言模型(LLM)展示出了显著的能力,但它们在生成回答时经常包含事实错误,因为它们仅依赖于封装在模型中的参数知识。增强型检索生成(Retrieval-Augmented Generation, RAG)是一种方法,通过检索相关知识来减少此类问题。然而,无论是否需要检索,或检索的段落是否相关,不加选择地检索和整合固定数量的检索段落会降低语言模型的多功能性,或可能导致生成无用的回答。原创 2024-06-13 10:28:56 · 1304 阅读 · 0 评论 -
【LLM之RAG】KG_RAG论文阅读笔记
该研究集中于通过将生物医学知识图谱(KG)与大型语言模型(LLMs)集成,以增强LLMs在生物医学应用中的表现。研究的动机源于LLMs在生成精确内容方面面临的挑战,尤其是在像生物医学这样准确性至关重要的领域。LLMs在广泛的通用文本上的传统训练并不总是能够在专业领域中转化为高准确性,这是因为模型尽管语言结构正确,却仍会生成错误信息(即“幻觉”)。原创 2024-06-12 10:23:34 · 1646 阅读 · 1 评论 -
【LLM之RAG】RAFT论文阅读笔记
论文针对的主要问题是如何将预训练的大型语言模型(LLMs)适应特定领域的检索增强生成(RAG)。这些模型通常在广泛的文本数据上进行预训练,已经表现出在广义知识推理任务上的优越性能。然而,在特定领域,如法律、医学或最新新闻等,普遍的知识推理不足以满足精确性的要求,因此需要对这些模型进行适应性调整以增强其在这些领域内的应用性能。原创 2024-06-11 18:11:05 · 1634 阅读 · 1 评论 -
【LLM之基座】qwen 14b-4int 部署踩坑
由于卡只有24G,qwen14b 原生需要 30GB,按照官方团队的说法,他们用的量化方案是基于AutoGPTQ的,而且根据评测,量化之后的模型效果在几乎没有损失的情况下,显存降低到13GB,妥妥穷狗福音,说干就干。原创 2023-11-17 14:28:20 · 8490 阅读 · 6 评论
分享