
1 引言
科研想法的产生是推动科学进步的关键环节。传统上,研究人员需要阅读大量文献、识别现有方法的不足,然后提出新的研究方向。但现在,科学文献的数量呈指数级增长,技术更新换代越来越快,这让研究人员很难全面掌握某个领域的最新进展。近年来,大语言模型(如GPT-4)在数学、编程等科学任务上的表现已经超越人类专家,这让人们开始思考:能不能让AI来帮助研究人员产生创新的研究想法?现有的一些尝试表明这是可行的,但这些方法存在一个共同问题——它们要么简单地提示LLM生成想法,要么给LLM提供大量文献却不告诉它哪些信息是有用的。这就像把一个人丢在杂乱的图书馆里让他写论文,他可能会被无关的书籍分散注意力,最终写出来的东西缺乏逻辑性和创新性。
以"增强大语言模型问题解决能力"这个研究主题为例,传统的检索增强生成(RAG)方法会一股脑地把CoT(链式思维)、SC(自洽性)、ToT(思维树)、GoT(思维图)、GraphGPT等相关论文都塞给LLM。结果呢?LLM可能会从GraphGPT中借用一个想法,然后机械地套用到GoT框架中,声称这是"创新"。但这其实是一个低级错误:GoT是一种提示方法(不需要修改模型参数),而GraphGPT是一种微调方法(需要训练模型),把这两个完全不同类型的方法混为一谈,就像是把"如何教学生思考"和"如何给学生换一个大脑"搞混了。相比之下,真正的人类研究者会按时间顺序梳理这个领域的发展脉络:先有了CoT,然后SC在此基础上解决了贪婪解码的问题,接着ToT进一步扩展了推理结构,最后GoT把树结构泛化成了图结构。理解了这条发展轨迹,研究者才能准确把握"下一步该往哪走"。
综合而言,本文面临的挑战主要体现在以下几个方面:
- 文献信息过载问题:现有方法给LLM提供大量相关文献,但缺乏有效的组织,导致模型容易受到不相关工作的干扰,产生逻辑不连贯的想法
- 缺乏发展脉络理解:简单地检索相似文献无法让LLM理解一个研究领域的演进过程,也就无法把握未来的发展方向
- 想法新颖性难以保证:现有方法要么依赖预定义的新颖性标准,要么通过与已有论文的相似度来判断,缺乏对"什么是真正创新"的深入理解
针对这些挑战,本文提出了一种模拟人类研究思维过程的"思想链(Chain-of-Ideas, CoI)智能体"方法:
CoI智能体的核心思想是:像人类研究者一样,按照时间顺序把相关论文组织成一条"链",清晰地展示一个研究领域的发展历程。具体来说,给定一个研究主题,CoI首先找到一篇"锚论文",然后向前追溯它引用的重要文献(看这个想法从哪里来),同时向后追踪引用它的后续工作(看这个想法发展到哪里去)。这样就形成了一条完整的发展链条,比如:CoT→SC→ToT→GoT。然后,CoI要求LLM分析相邻论文之间的演进关系:SC是如何改进CoT的?ToT又解决了SC的什么问题?通过这种方式,LLM能够理解这个领域的发展动力和趋势,从而预测未来可能的研究方向,最终生成真正具有创新性的想法。这就好比让LLM不是漫无目的地在图书馆里乱翻,而是跟着一个有经验的导师,按照一条清晰的学习路径,循序渐进地了解整个领域的来龙去脉。
2 研究方法
2.1 问题背景与动机

图1:Vanilla RAG与Chain-of-Ideas Agent的对比图。这张图通过一个具体的研究主题"增强大语言模型的问题解决能力"来展示两种方法的差异。上半部分展示了传统RAG方法的问题:它将所有检索到的论文(如CoT、SC、ToT、GoT、RAG、RoG、ECOI、GraphGPT、SAAS、ORA、LawyerGPT)混杂在一起,没有组织结构,导致LLM可能从不相关的论文中借用想法。例如,它生成了一个将GraphGPT(一种微调方法)与GoT(一种提示方法)混淆的想法,这在技术上是不合理的。下半部分展示了CoI Agent的优势:它将相关论文按照发展顺序组织成链状结构(CoT→SC→ToT→GoT),清晰地展现了研究领域的演进脉络。这种组织方式使LLM能够理解每个方法如何在前一个方法基础上改进,从而生成更加合理和创新的研究想法,例如提出"动态问题特定思维网络",根据问题性质动态调整推理结构。
在深入了解CoI Agent之前,论文首先指出了现有方法存在的一个核心问题:当我们让大语言模型(LLM)生成研究想法时,简单地给它塞入大量相关文献往往适得其反。这就好比你要去一个陌生城市找路,有人给你一堆零散的路标,却没有地图——你会感到无所适从。
传统的检索增强生成(RAG)方法就存在这样的问题。如图1所示,当研究主题是"增强大语言模型的问题解决能力"时,传统RAG会检索到很多相关论文,比如Chain-of-Thought (CoT)、Self-Consistency (SC)、Tree of Thoughts (ToT)、Graph of Thoughts (GoT)等,但这些论文被杂乱无章地堆积在一起。结果呢?LLM生成了一个听起来很"新颖"的想法:将GraphGPT的方法应用到GoT框架中。但仔细一看,这个想法犯了一个严重的概念混淆错误——GoT是一种提示方法(prompting method),而GraphGPT是一种微调方法(fine-tuning method),两者根本不能这样简单组合。
为什么会出现这种问题呢?因为LLM没有理解这些论文之间的内在联系和发展脉络。它就像一个不了解领域历史的新手,随意地将不同概念拼凑在一起。
相比之下,人类研究者是怎么做的呢?他们会系统地分析一个领域从基础工作到当前进展的演变过程。通过这种理解,研究者能够批判性地评估早期研究的局限性,识别新兴趋势,从而提出真正有深度和创新性的研究想法。
论文的核心洞察就是:要让LLM像人类研究者一样思考,我们需要让它看到研究发展的"路线图",而不是一堆散乱的"路标"。这就是Chain-of-Ideas(想法链)概念的由来——将相关文献按照发展顺序组织成链状结构,让LLM能够清晰地看到"A论文的局限性催生了B论文,B论文的改进又启发了C论文"这样的演进关系。
2.2 CoI Agent总体框架

图2:CoI Agent框架的完整工作流程图。这是论文的核心框架图,详细展示了三个主要阶段。第一阶段(CoI Construction):从Semantic Scholar检索论文,以锚点论文(如ToT)为中心,向前追溯其引用的论文(如SC、CoT),向后查找引用它的论文(如GoT),同时提取每篇论文的想法、实验和关键实体信息,并总结当前趋势(如"CoT到SC的演进标志着解决贪婪解码在复杂推理任务中的局限性")。第二阶段(Idea Generation):基于构建好的想法链和趋势分析,首先预测未来研究方向(如"适应任务解决框架以匹配问题性质"或"降低推理计算成本"),然后通过逐步整合(Idea Consolidation)生成具体的研究想法,包括标题、动机和方法,同时进行新颖性检查,如果不够新颖则重新生成,最后从多个想法分支中选择最佳想法。第三阶段(Experiment Design):结合关键实体和以往实验作为少样本示例,设计实验方案(如定义基线、准备数据集、实现方法),并通过审查代理检查实验设计的清晰度和支持性,直到满足要求。
了解了问题背景后,我们来看CoI Agent的整体设计。如图2所示,这个框架由三个主要阶段组成,形成一个完整的研究想法生成流程。
第一阶段:想法链构建(CoI Construction)。给定一个研究主题,CoI Agent首先构建多个想法链,每个链反映该领域内不同的发展趋势。这就像绘制一张研究领域的"家谱图",清楚地展示想法之间的继承和发展关系。
第二阶段:想法生成(Idea Generation)。对于每个构建好的想法链,LLM首先分析现有趋势,预测未来可能的研究方向,然后通过逐步整合的方式生成具体的研究想法。生成的想法会经过新颖性检查,确保其真正具有创新性。最后,从多个分支生成的想法中选出最佳的一个。
第三阶段:实验设计(Experiment Design)。为了让生成的想法更加实用,CoI Agent还会设计相应的实验方案,帮助研究者将想法付诸实践。
整个框架的设计体现了"站在巨人肩膀上"的研究哲学。通过系统地组织和分析已有工作,LLM能够更好地理解研究领域的发展脉络,从而提出更有深度、更合理的研究想法。接下来,我们详细看看每个阶段是如何实现的。
2.3 想法链的构建
想法链的构建是整个CoI Agent框架的基础,也是最具创新性的部分之一。论文将一个想法链表示为 ,其中包含 个按时间顺序排列的研究想法,这些想法分别来自 篇相关论文。
生成查询并选择锚点论文
构建想法链的第一步是确定起点。给定一个初始研究主题(比如"增强大语言模型的问题解决能力"),论文首先让LLM生成多个查询 ,每个查询代表该主题的一个不同视角。举个例子,对于上述主题,可能生成的查询包括"提示工程优化"、“多步推理增强”、"结构化思维框架"等。
为什么要生成多个查询呢?因为一个研究主题往往有多个发展方向,单一的想法链可能无法捕捉到最重要的发展趋势。通过构建 个分支的想法链,可以从多个角度审视研究领域,增加发现新颖且有影响力想法的可能性。
对于每个查询 ,系统使用Semantic Scholar API检索排名最高的论文,称之为锚点论文。如图2所示,ToT(Tree of Thoughts)就是一个锚点论文的例子。锚点论文是构建想法链的核心,整个链将围绕它向前向后扩展。
向前扩展:追踪后续发展
从锚点论文 出发,向前扩展的目标是找到那些在它基础上进一步发展的论文。具体来说,论文通过Semantic Scholar API识别所有引用了锚点论文的后续论文。这就好比找到所有"站在锚点论文肩膀上"的研究工作。
然后,使用OpenAI的text-embedding-3-large模型,根据这些论文与"初始研究主题+锚点论文摘要"的余弦相似度进行排序。选择排名最高的论文作为 来扩展想法链。例如,如果锚点论文是ToT,那么GoT(Graph of Thoughts)可能被选为 ,因为GoT直接在ToT的基础上进行了改进。
这个向前扩展的过程是迭代进行的:从 扩展到 ,直到满足以下任一条件:
- 想法链长度达到预设值(论文中设为5)
- LLM判断没有有价值的后续工作
向后扩展:追溯源头
向后扩展的目标是找到锚点论文的"祖先"——那些为它奠定基础的工作。这个过程需要LLM仔细阅读论文全文,识别三类关键参考文献:
- 锚点论文直接建立在其上的工作
- 作为锚点论文基线的工作
- 与锚点论文处理相同主题的工作
有了候选参考文献后,LLM选择与锚点论文最相关的一篇作为 。如图2所示,如果锚点是ToT,那么SC(Self-Consistency)可能被选为 ,因为ToT的树状结构搜索是对SC多路径采样思想的扩展。
向后扩展同样是迭代进行的,从 扩展到 (例如从SC追溯到CoT)。终止条件包括:
- 想法链长度达到预设值
- 遇到里程碑论文(定义为引用超过1000次的论文)
- 没有找到与原始研究主题相关的参考文献
为什么遇到里程碑论文就停止呢?因为里程碑论文通常代表该领域的基础性工作,其想法可以作为想法链的强起点。
提取信息与总结趋势
构建好 条论文链后,论文让LLM从每篇论文中提取以下信息:
- 想法(Idea):论文的核心贡献和方法
- 实验(Experiment):论文的实验设计
- 关键实体(Entities):涉及的数据集、模型名称、专业术语等
然后,最关键的一步来了:LLM分析想法链中任意两个相邻想法之间的演变关系,总结当前研究趋势。如图2上半部分所示,对于链 CoT→SC→ToT→GoT,趋势分析可能包括:
- “CoT到SC:通过多路径采样和答案聚合来解决贪婪解码在复杂推理任务中的局限性”
- “SC到ToT:从随机采样多条路径扩展到系统性地探索树状结构的思维空间”
- “ToT到GoT:从树状结构进一步扩展到图结构,允许更灵活的思维组合和回溯”
这种趋势分析是CoI Agent的核心价值所在。它不是简单地告诉LLM"这里有几篇相关论文",而是展示了研究领域如何一步步演进,每个新方法如何解决前一个方法的局限性。这种理解对于生成真正有创新性的研究想法至关重要。
2.4 研究想法的生成
有了构建好的想法链和趋势分析,下一步就是生成新颖的研究想法。这个过程分为几个关键步骤,体现了从理解现有工作到提出创新想法的思维过程。
预测未来趋势
想法生成的第一步是预测未来可能的研究方向。论文用想法链、现有发展趋势和关键实体信息来提示LLM,让它分析研究领域的演进规律,推测下一步可能的发展方向。
举个例子,对于CoT→SC→ToT→GoT这条想法链,LLM可能会这样分析:
- 这些方法从线性推理(CoT)发展到多路径采样(SC),再到树状搜索(ToT),最后到图结构探索(GoT)
- 趋势是推理结构越来越灵活,但同时计算成本也在增加
- 未来方向可能包括:根据问题性质动态选择推理结构,或者降低复杂推理的计算成本
如图2所示,预测的未来趋势可能是"根据问题的特性自适应地调整任务解决框架"或"降低推理的计算成本"。这些预测为后续的具体想法生成提供了方向指引。
逐步整合想法
有了未来趋势的预测后,LLM开始具体化研究想法。这个过程是逐步进行的,包括:
- 明确动机(Motivation):论文的问题是什么?为什么现有方法不够好?
- 阐述新颖性(Novelty):新想法与现有方法有何不同?带来了什么改进?
- 设计方法(Method):具体如何实现这个想法?有哪些关键模块?
以论文中的案例为例(表2),研究主题是"使用LLM Agent生成新颖的研究想法"。基于构建的想法链(从分子生成到自动化科学实验,再到假设生成,最后到想法生成框架),LLM提出了EvoResearchAgent的想法:
- 动机:现有的LLM想法生成方法(如ResearchAgent)虽然能产生新颖想法,但往往缺乏多样性和广度
- 新颖性:引入进化算法来增强想法的多样性和新颖性
- 方法:包括想法初始化、多样性指标定义、以及选择-交叉-变异-迭代的进化过程
这种逐步整合的方式确保了生成的想法不是凭空想象,而是建立在对现有研究深入理解的基础上,同时又有明确的创新点。
新颖性检查
生成想法后,一个关键问题是:这个想法真的新颖吗?还是已经有人做过了?论文引入了新颖性检查机制来解决这个问题。
具体来说,系统会检索与生成想法相关的论文,然后让另一个LLM评估生成的想法与检索到的论文的相似度。如果相似度过高(说明想法不够新颖),系统会要求重新生成。这个过程会迭代进行,直到生成足够新颖的想法。
选择最佳想法
由于CoI Agent为同一研究主题构建了 个想法链分支,因此会生成 个候选想法。最后,这些想法会进行两两比较,胜率最高的想法被选为最终输出。
这种多分支生成策略有几个好处:
- 从多个角度审视研究主题,避免单一视角的局限
- 降低某个想法链质量不佳的风险
- 通过竞争机制选出最优想法
整个想法生成过程体现了"分析过去→预测未来→具体实现→验证新颖性→择优选择"的完整思维链条,这与人类研究者的思维过程高度相似。
2.5 实验方案的设计
虽然论文的主要目标是生成新颖的研究想法,但为了让这些想法更具实用价值,CoI Agent还包含了实验设计模块。这个模块帮助研究者将想法转化为可执行的实验方案。
生成实验设计
如图2右下角所示,实验设计过程利用了前面阶段收集的信息。具体来说,系统将以下内容作为输入提供给LLM:
- 从想法链中提取的以往实验设计(作为少样本示例)
- 最终确定的研究想法
- 关键实体(数据集、模型、评估指标等)
有了这些信息,LLM被要求生成详细的实验方案,包括:
- 定义基线:选择哪些现有方法作为比较对象
- 数据集准备:使用哪些数据集,如何预处理
- 实现细节:核心算法的具体实现步骤
- 评估指标:如何衡量方法的效果
- 消融实验:如何验证各个模块的贡献
审查与改进
生成初步实验设计后,论文引入了审查代理(Review Agent)来评估方案的质量。审查代理主要检查两个方面:
- 清晰度:实验方案是否清楚明确?所有关键元素(数据集、模型、超参数等)是否都有明确说明?
- 支持性:实验设计是否能够有效验证提出的研究想法?
如果审查发现问题,审查代理会提供具体的反馈意见。系统会根据这些反馈检索相关文献,然后让LLM改进实验设计。这个审查-改进的过程是迭代进行的,直到实验设计满足要求。
这就像学术界的同行评审过程:初稿提交后,审稿人指出问题,作者根据意见修改,最终产生高质量的实验方案。
实际价值
实验设计模块使CoI Agent生成的想法不仅停留在概念层面,而是具有明确的实现路径。研究者可以直接参考这些实验设计来开展研究工作,大大降低了从想法到实践的门槛。
论文的实验结果(表5)也证实了这一点:CoI Agent生成的实验设计在可行性、技术质量和清晰度方面都优于其他自动化方法,在人类评估中甚至超过了第二名方法70个ELO分数。这说明整个框架不仅能生成好的想法,还能设计出可行的实验方案来验证这些想法。
3 实验
3.1 实验设置
- 数据集:从Hugging Face的Daily Papers收集研究主题,选取2024年8月1日至9月15日期间提交的论文(在LLM数据截止日期之后)。邀请10位AI专家(均在顶级AI会议发表过论文)筛选感兴趣的论文,每位专家贡献5个主题,共计50个研究主题。
- 基线模型:选择了7种对比方法,包括RAG(直接使用检索论文生成想法)、ResearchAgent(利用学术知识图谱和同行讨论框架)、GPT-Researcher(具有计划求解和RAG能力的研究型智能体)、AI-Scientist(提取想法生成和实验设计组件)、AI-Researcher(带RAG和重排序机制的专用想法生成智能体)、SciAgent(结合知识图谱、RAG和LLM的多智能体系统)、以及Real Paper(从真实论文中提取的想法作为人类基准)。
- 评估指标:采用Idea Arena评估框架,使用成对比较的循环赛制计算ELO分数。评估维度包括新颖性(Novelty)、重要性(Significance)、清晰度(Clarity)、可行性(Feasibility)和预期有效性(Expected Effectiveness)。实验设计评估则关注可行性、技术质量和清晰度。
- 实现细节:主要使用GPT-4o (05-13)作为LLM实现,对于需要全文理解的模块使用价格更低的GPT-4o-mini (07-18)。使用Semantic Scholar作为学术搜索引擎,想法链最大长度设为5,分支数量设为3,实验设计阶段的自我优化迭代次数设为1。
3.2 实验结果
| 实验类型 | 实验目的 | 图表 | 主要结果 |
|---|---|---|---|
| 主实验对比 | 验证CoI Agent在想法生成任务上的整体性能 | 图3(a)(b)、表29 | CoI Agent在模型和人类评估中均优于所有自动化基线,与真实论文表现相当 |
| 评判者一致性分析 | 验证模型评估与人类评估的可靠性 | 图3©、表1 | GPT-4o与人类评估达到74.9%的一致性,接近人类间评估水平 |
| 消融实验 | 评估CoI Agent各组件的贡献 | 表3 | 移除CoI构建造成最大性能下降,证明渐进式文献组织的重要性 |
| 链长度分析 | 探究想法链长度对生成质量的影响 | 图4 | 长度从0增至3时性能大幅提升,5时趋于饱和 |
| 链宽度分析 | 探究分支数量对生成质量的影响 | 图5 | 增加分支数量与想法质量正相关,但差异较小 |
| 方法对比实验 | 区分CoI与CoT及RAG方法 | 表4 | CoI显著优于RAG、CoT及其组合方法 |
| 实验设计评估 | 验证生成实验设计的质量 | 表5 | CoI Agent在所有标准下均优于自动化方法,人类评估中领先第二名70 ELO分 |
实验1、主实验对比


目的:全面验证CoI Agent在研究想法生成任务上相比现有方法的性能优势
涉及图表:图3(a)(b)展示了LLM评判和人类评判下各方法在新颖性、重要性、清晰度、可行性和有效性五个维度的雷达图;表29展示了详细的ELO分数和排名
实验细节概述:这是论文的核心实验,旨在全面评估CoI Agent的想法生成能力。研究团队在50个AI研究主题上测试了8种方法(7种自动化方法加上真实论文基准)。评估采用Idea Arena框架,这是一个创新的成对比较系统,借鉴了国际象棋的ELO评分机制。对于每个主题,任意两种方法生成的想法会进行两两对比,评估时会交换顺序以减少位置偏差。评估覆盖五个关键维度:新颖性(问题或方法是否新颖)、重要性(想法是否对领域有重大贡献)、清晰度(描述是否清晰易懂)、可行性(是否可用现有技术实现)和预期有效性(预期性能是否优于基线)。实验同时采用模型评估(GPT-4o、Gemini-1.5-Pro、Claude-3.5-Sonnet)和人类评估(10位AI领域专家)两种方式。每位专家负责评估他们选择的5个主题下所有方法对(共C²₈ * 5 = 140次比较)。为确保公平性,所有方法的输出格式都经过统一处理,且评估时隐藏了方法来源。生成单个想法及其实验设计的成本仅需约0.50美元,体现了方法的经济性。
结果:CoI Agent在两种评估设置下均表现最佳。在模型评估中,CoI Agent以1129的平均ELO分数位居第二(仅次于Real Paper的1130分),在新颖性(1156)和重要性(1169)维度甚至超过了真实论文。在人类评估中,CoI Agent以1102分排名第二,分别领先第二名GPT-Researcher和第三名RAG 34分和65分。值得注意的是,CoI Agent在新颖性和重要性上与真实论文相当甚至更优,但在可行性和有效性上仍有差距,这是因为真实论文的想法经过了充分的实验验证。
实验2、评判者一致性分析

目的:验证模型评估方法的可靠性,确保自动化评估能够有效反映人类偏好
涉及图表:图3©展示了人类与三种LLM(GPT-4o、Gemini-1.5-Pro、Claude-3.5-Sonnet)之间的两两一致性矩阵;表1展示了人类与GPT-4o在各评估维度的具体一致性百分比
实验细节概述:研究团队分析了不同评判者之间在Idea Arena评估中的一致性程度。一致性定义为两个评判者在同一场比赛中对获胜者判断一致的概率。实验对比了人类评估者与三种主流LLM(GPT-4o、Gemini-1.5-Pro和Claude-3.5-Sonnet)的判断结果,计算它们之间的Pearson相关系数和Spearman相关系数。
结果:GPT-4o与人类评估达到74.9%的平均一致性,这一水平接近人类评估者之间的一致性水平。在各个具体维度上,清晰度一致性最高(78.2%),新颖性最低(70.7%),重要性(75.8%)、可行性(74.1%)和有效性(75.6%)均保持在较高水平。这一结果表明Idea Arena框架在评估研究想法质量方面具有良好的稳健性,验证了使用LLM作为自动化评判者的可行性。
实验3、消融实验

目的:评估CoI Agent中各个组件对最终想法生成质量的贡献程度
涉及图表:表3展示了完整模型与三个变体(去除CoI构建、去除未来趋势预测、去除实体定义)在五个维度上的对比得分
实验细节概述:研究团队设计了三个消融变体:(1) -CoI:移除想法链构建,直接使用检索到的文献而不进行渐进式关系挖掘;(2) -Future Trend:跳过未来趋势预测步骤,直接基于现有趋势生成想法;(3) -Entities:省略想法生成过程中的实体定义信息。每个变体与完整的CoI Agent进行50轮对战,获胜得2分、平局得1分、失败得0分,满分100分。
结果:所有变体的性能都出现下降。移除CoI构建造成最大的性能损失(平均得分从50分降至42.4分),特别是在新颖性(41)、重要性(39)和有效性(39)上下降明显,说明通过渐进式关系组织文献对于理解研究趋势至关重要。移除未来趋势预测也导致新颖性显著下降(40分),因为LLM缺乏对前瞻性想法的洞察。移除实体定义则降低了清晰度(42分)和有效性(43分),因为LLM生成的想法变得更加抽象,缺乏具体概念的支撑。
实验4、链长度分析

目的:探究想法链的长度如何影响生成想法的质量
涉及图表:图4展示了不同最大链长度(0、3、4、5、6)对应的ELO分数变化曲线
实验细节概述:研究团队构建了不同最大链长度的变体,其中0长度变体使用5篇检索论文但不组织成链结构,相当于消融实验中的"-CoI"变体。各变体之间进行Idea Arena评估比较。
结果:当链长度从0增加到3时,想法生成质量出现大幅提升(ELO分数从约945分跃升至约995分)。这表明清晰的发展趋势分析比相关文献的数量更为重要。随着链长度继续增加,质量持续提升但幅度减缓。在最大长度达到5时,性能趋于饱和(约1005分),说明这个长度已足够捕获相关趋势,额外的文献带来的收益递减。
实验5、链宽度分析

目的:探究想法链的分支数量(宽度)对生成想法质量的影响
涉及图表:图5展示了不同分支数量(1、2、3、4)对应的平均ELO分数趋势
实验细节概述:研究团队测试了不同数量的CoI分支对想法生成质量的影响。每个分支代表对同一研究主题的不同视角和发展路径。
结果:增加分支数量与想法质量呈正相关,ELO分数从单分支的约985分逐步提升到四分支的约1010分。然而,不同分支数量之间的ELO分数差异相对较小。这可能是因为生成多个想法链主要帮助减少单一低质量CoI的影响,而这种低质量的情况本身就比较罕见。
实验6、方法对比实验

目的:进一步区分CoI方法与传统的Chain-of-Thought (CoT)和检索增强生成(RAG)方法
涉及图表:表4展示了CoI Agent与CoT、RAG、CoT+RAG三种基线方法的对比得分
实验细节概述:研究团队将CoI Agent与三种基线方法进行对比:RAG(添加10篇相关论文的标题和摘要增强提示)、CoT(显式要求LLM逐步生成想法)、CoT+RAG(结合两种策略)。采用与消融实验相同的评分机制,每种基线方法与CoI Agent进行50轮对战。
结果:CoI Agent在所有维度上都显著优于三种基线方法。RAG仅获得平均17.8分,CoT仅8.8分,即使组合后的CoT+RAG也只有29.4分,远低于CoI Agent的50分(满分100分)。这一结果进一步证明了CoI方法在生成高质量研究想法方面的独特性和优越性,它既不同于简单的检索增强,也不同于一般的链式推理策略。
实验7、实验设计评估

目的:评估各方法生成的实验设计质量,作为想法生成的副产品验证
涉及图表:表5展示了模型评估和人类评估下各方法在可行性、技术质量和清晰度三个维度的ELO分数及一致性
实验细节概述:研究团队要求各基线方法为其生成的想法设计相应的实验方案。由于SciAgent和AI-Researcher不支持实验设计功能,因此排除在外。评估同样采用成对比较方式,聚焦三个核心标准:可行性(实验能否用现有技术实现)、技术质量(设计是否有合理依据)和清晰度(描述是否清晰完整)。
结果:CoI Agent在两种评估设置下均表现优异。在模型评估中,CoI Agent以1056分位居自动化方法首位,特别是在技术质量(1096)上表现突出。在人类评估中,CoI Agent以1112分紧随Real Paper(1120分)之后,领先第三名RAG(1042分)70 ELO分。模型与人类评估之间保持73.0%的平均一致性,其中技术质量一致性最高(75.9%)。这些结果表明CoI Agent不仅能生成高质量的研究想法,还能提供清晰、技术上合理且可行的实验设计方案。
4 总结后记
这篇论文聚焦于科研创意自动生成这个颇具挑战性的问题。研究者观察到,传统的RAG方法直接把一堆相关文献塞给大语言模型,容易导致生成的想法逻辑混乱、创新性不足。受人类研究者阅读文献的习惯启发,他们提出了Chain-of-Ideas (CoI) Agent——一个将相关论文按照研究演进脉络组织成链式结构的框架。通过这种"从过去到现在再到未来"的渐进式呈现,LLM能更好地理解领域发展趋势,从而生成更有逻辑性和创新性的研究想法。实验表明,CoI Agent在人类评估中以65 ELO分的优势超越次优基线,生成的想法在新颖性和重要性上甚至可以媲美真实论文,而且成本极低——每个想法只需0.5美元。
可借鉴的方法点:
- 知识的链式组织思想可以推广到很多需要"理解演进趋势"的场景,比如技术调研、竞品分析、学科入门等,不要只给模型一堆信息,而是给它一条清晰的发展脉络。
- 未来趋势预测作为中间步骤的设计很巧妙,让模型先预测方向再生成具体方案,这种"先宏观后微观"的思路可以用在商业策略、产品规划等领域。
- Arena式的对战评估比传统打分更能反映真实偏好,这种评估范式可以借鉴到其他开放式生成任务的评估中,比如创意写作、方案对比等。
- 自动化的新颖性检查机制(通过检索相似论文来判断是否重复)是个实用的组件,可以嵌入到任何需要确保原创性的创作流程中。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

被折叠的 条评论
为什么被折叠?



