论文链接:https://arxiv.org/pdf/2502.20730
1. 概述
论文背景与动机
- 复杂工程方案设计任务通常涉及多个现实约束(例如高降雨、土质膨胀、地震活动等),要求输出完整、可行的解决方案。
- 现有的检索增强生成(RAG)方法主要关注长问答或多跳问答任务,难以直接应对多约束、完整方案设计任务。
- 为此,作者提出了一个新基准 SolutionBench 来评估系统在复杂工程方案设计方面的能力,同时提出了 SolutionRAG 系统,通过树状探索与“二点评估”(bi-point thinking)来不断改进生成的方案。
主要贡献
- 构建了覆盖八大工程领域的基准数据集 SolutionBench,保证数据来源的权威性、真实性与多样性。
- 提出了 SolutionRAG 系统,利用树状探索机制和交替进行方案生成与审核的“二点评估”策略,逐步提高方案的完整性与可靠性。
- 通过大量实验与消融分析验证了所提方法在各个工程领域均取得了显著的改进效果。
2. 数据集构建:SolutionBench
2.1 数据来源与权威性
- 数据均采自各工程领域的权威期刊和技术报告,确保报告中的需求和专家方案均来源于真实工业场景,经过严格同行评审。
- 通过手动制定模板,利用强大 LLM(如 GPT-4o)自动提取报告中的关键信息,并由专家人工校验去除冗余,构成高质量的评估数据。
2.2 模板提取过程
-
模板中需要提取的内容包括:
- 需求(requirement):对复杂工程条件下任务的完整描述,涵盖所有约束条件。
- 解决方案(solution):专家给出的完整可靠方案,描述解决设计问题的步骤与采用的技术。
- 分析性知识(analytical knowledge):专家在分析复杂需求时用到的理论、定量条件和可能遇到的挑战。
- 技术性知识(technical knowledge):针对需求中具体问题提出的技术方案及其细节。
- 解释(explanation):从分析到方案设计的推理过程,说明各技术如何解决对应问题。
-
数据点格式公式如下:
D = { q i , s i , { k ( a ) j } j = 1 A i , { k ( t ) j } j = 1 T i , e i } i = 1 N D = \{q_i, s_i, \{k(a)_j\}_{j=1}^{A_i}, \{k(t)_j\}_{j=1}^{T_i}, e_i\}_{i=1}^{N} D={qi,si,{k(a)j}j=1Ai,{k(t)j}j=1Ti,ei}i=1N
其中 q i q_i qi 表示需求, s i s_i si 为专家方案, { k ( a ) j } \{k(a)_j\} {k(a)j} 为分析性知识集合, { k ( t ) j } \{k(t)_j\} {k(t)j} 为技术性知识集合, e i e_i ei 为解释说明。 -
知识库构建公式:
K = ⋃ i = 1 M { k i } K = \bigcup_{i=1}^{M} \{ k_i \} K=i=1⋃M{ki}
2.3 评估形式
- 评估任务可分为两种:
- 直接生成方案: s ^ = F ( q ) \hat{s} = F(q) s^=F(q)
- 利用知识库增强的 RAG 设定:
s
^
=
F
(
q
,
K
)
\hat{s} = F(q, K)
s^=F(q,K)
3. 系统框架:SolutionRAG
3.1 树状探索与二点评估机制
-
基本思想
- 为应对复杂工程需求中多约束的特点,单一生成方案往往难以保证全部约束均被满足。
- SolutionRAG 采用树状探索机制,在树中每个节点代表一次方案生成或审核,交替构成 解决方案节点(solution node) 和 评论节点(comment node),实现“二点评估”(bi-point thinking)。
-
树结构公式
- 解决方案节点生成评论节点:
s j ( i ) → { c h ( i + 1 ) } h = 1 H s^{(i)}_j \rightarrow \{ c^{(i+1)}_h \}_{h=1}^{H} sj(i)→{ch(i+1)}h=1H - 评论节点生成新的解决方案节点:
c j ( i + 1 ) → { s h ( i + 2 ) } h = 1 H c^{(i+1)}_j \rightarrow \{ s^{(i+2)}_h \}_{h=1}^{H} cj(i+1)→{sh(i+2)}h=1H
其中 H H H 为每个节点的子节点数。
- 解决方案节点生成评论节点:
-
节点扩展过程
- 设计过程:给定需求
q
q
q 和某评论
c
j
(
i
+
1
)
c^{(i+1)}_j
cj(i+1),利用 LLM 随机采样生成
H
H
H 个提案:
{ p h } h = 1 H = L L M ( q , c j ( i + 1 ) ) \{p_h\}_{h=1}^{H} = LLM(q, c^{(i+1)}_j) {ph}h=1H=LLM(q,cj(i+1))
然后从知识库中检索与提案相关的知识:
K h = R e t r i e v a l ( p h , K ) = { k r } r = 1 R K_h = Retrieval(p_h, K) = \{ k_r \}_{r=1}^{R} Kh=Retrieval(ph,K)={kr}r=1R
最后生成新的解决方案:
s h ( i + 2 ) = L L M ( q , s z ( i ) , c j ( i + 1 ) , K h ) s^{(i+2)}_h = LLM(q, s^{(i)}_z, c^{(i+1)}_j, K_h) sh(i+2)=LLM(q,sz(i),cj(i+1),Kh) - 审核过程:类似的,基于当前方案生成审核评论,以指出方案中尚未满足的约束或不足之处。
- 设计过程:给定需求
q
q
q 和某评论
c
j
(
i
+
1
)
c^{(i+1)}_j
cj(i+1),利用 LLM 随机采样生成
H
H
H 个提案:
-
节点评价与剪枝
- 为避免树结构过大,系统对每个节点进行评分,保留评分最高的 W W W 个节点。
- 对于解决方案节点,通过以下公式计算其可靠性得分:
J h ( s j ( i ) ) = L o g i t s ( u s ∣ s j ( i ) , c h ( i + 1 ) ) J_h(s^{(i)}_j) = Logits(u_s \mid s^{(i)}_j, c^{(i+1)}_h) Jh(sj(i))=Logits(us∣sj(i),ch(i+1))
最终得分为各子节点得分的平均值。 - 对于评论节点,类似地计算其“帮助性”得分:
J h ( c j ( i + 1 ) ) = L o g i t s ( u c ∣ s z ( i ) , c j ( i + 1 ) , s h ( i + 2 ) ) J_h(c^{(i+1)}_j) = Logits(u_c \mid s^{(i)}_z, c^{(i+1)}_j, s^{(i+2)}_h) Jh(cj(i+1))=Logits(uc∣sz(i),cj(i+1),sh(i+2))
3.2 系统优势
- 通过树状探索,系统可以并行探索多种改进方向,不拘泥于固定的推理模式。
- “二点评估”机制保证了生成方案在设计与审核两个层面均得到充分考虑,从而提高了最终方案的可靠性。
- 节点评价与剪枝机制平衡了推理深度与计算效率,确保在有限计算资源下获得最优方案。
4. 实验设计与结果
4.1 实验设置
-
评估指标
- 采用两类分数:
- 分析性分数(Analytical Score):结合专家方案、分析性知识及解释,评估生成方案在分析复杂约束方面的表现。
- 技术性分数(Technical Score):结合专家方案、技术性知识及解释,评估生成方案在采用正确技术解决问题方面的表现。
- 两个分数均在 0 到 100 范围内,由 GPT-4o 等 LLM 作为评分评估器计算。
- 采用两类分数:
-
基线对比
- 实验中与深度推理模型(不使用外部知识的模型)、单轮 RAG 方法以及多轮迭代 RAG 方法(如 Self-RAG、GenGround、RQ-RAG)进行对比。
-
实现细节
- 采用的基础模型为 Qwen2.5-7B-Instruct,检索模型为 NV-Embed-v2,检索结果数 R = 10 R=10 R=10。
- 对于 SolutionRAG,设置树最大深度 L = 5 L=5 L=5,每个节点子节点数 H = 2 H=2 H=2,剪枝时保留节点数 W = 1 W=1 W=1。
4.2 主要结果
- 表 2 展示了在 SolutionBench 八个工程领域上的评估结果。
- 结果表明:
- 传统深度推理模型和现有 RAG 方法在处理复杂工程方案设计任务上均存在明显不足;
- SolutionRAG 在所有领域均取得了最高的分析性与技术性分数,例如在某些领域其技术性分数比 Naïve-RAG 提高了约 10 分,且整体表现更为均衡。
4.3 消融实验
- 消融实验验证了树状探索与二点评估机制的关键作用:
- “去掉树结构”(即每个节点只生成一个子节点,转为单链推理)以及“去掉二点评估”(所有节点均为方案节点,缺乏审核环节)都会导致性能显著下降。
- 表 3 的结果显示,删除任一机制都会使总体分数下降,表明这两种机制对最终方案的可靠性均至关重要。
4.4 详细分析
- 树增长过程中的性能变化
- 随着树深度从第一层逐步增加到第三层和第五层,方案的分数(分析性分数和技术性分数)均有明显提升,证明深层推理有助于改进方案质量。
- 节点评价机制效果
- 对比保留节点与剪枝节点的分数,保留节点的分数明显更高,验证了节点评价与剪枝方法在筛选高质量方案中的有效性。
5. 相关工作
- 复杂问答任务
- 现有多跳问答与长问答任务主要关注知识整合与推理,但未考虑多约束下生成完整解决方案的问题。
- 先进的 RAG 系统
- 之前的 RAG 系统(如 Self-RAG、RQ-RAG 等)通过多轮迭代实现部分改进,但缺乏保证所有工程约束均被满足的机制。
- 与基于蒙特卡洛树搜索(MCTS)的相关工作相比,SolutionRAG 的创新点在于引入了“二点评估”策略,从设计与审核两个角度确保方案可靠性。
6. 结论与局限性
结论
- 论文构建了一个全新的评估基准 SolutionBench,覆盖多领域复杂工程方案设计任务,填补了 RAG 领域在此任务上的空白。
- 提出的 SolutionRAG 系统通过树状探索和二点评估机制,有效提高了生成方案的完整性与可靠性,并在多个工程领域上取得了最先进(SOTA)的实验结果。
局限性与未来工作
- 当前系统主要基于现有 LLM 能力,未采用专门的强化学习进行进一步优化,未来可以探索基于 RL 的训练以获得更强的复杂工程方案设计能力。
- 由于 GPU 资源限制,对树的宽度和深度等超参数的探索仍较有限,这也是未来进一步研究的重要方向。
7. 总结
论文 DeepSolution 提出了一种创新的方法解决复杂工程方案设计问题,重点在于利用树状探索与“二点评估”机制,逐步改进生成方案以满足多重现实约束。通过构建高质量的基准数据集 SolutionBench 和详细的消融实验,作者证明了该方法在工程实际场景中的应用潜力,为自动化工程设计提供了一条新的研究思路。