文章主要内容与创新点总结
一、主要内容
- FABLE基准介绍:FABLE是首个针对大语言模型(LLMs)在程序文本中数据流推理能力的评估基准,改编自软件工程中的8种经典数据流分析方法(如到达定义、活跃变量分析、污染分析等),并将其应用于烹饪食谱、旅行路线和自动化计划三个真实世界领域。
- 数据集构建:
- 从三个领域收集数据并处理为结构化表示,包括步骤依赖图和实体流图。
- 包含2400个问答对,每个领域-分析组合有100个示例,覆盖不同复杂度和自动化水平的程序文本。
- 实验评估:
- 测试三种类型LLMs:推理专注模型(deepseek-r1:8b)、通用模型(llama3.1:8b)和代码专用模型(granite-code:8b)。
- 结果显示推理模型准确率最高,但推理时间比其他模型慢20倍以上;通用和代码专用模型表现接近随机水平。
- 关键发现:现有LLMs在数据流推理(尤其是数值和时间分析)上存在显著不足,FABLE能有效诊断模型在程序理解中的弱点。
二、创新点
- 跨领域数据流推理评估:首次将软件工程中的数据流分析方法迁移到自然语言程序文本,实现对LLMs的系统性评估。

订阅专栏 解锁全文
1849

被折叠的 条评论
为什么被折叠?



