文章主要内容与创新点总结
一、主要内容
- FABLE基准介绍:FABLE是首个针对大语言模型(LLMs)在程序文本中数据流推理能力的评估基准,改编自软件工程中的8种经典数据流分析方法(如到达定义、活跃变量分析、污染分析等),并将其应用于烹饪食谱、旅行路线和自动化计划三个真实世界领域。
- 数据集构建:
- 从三个领域收集数据并处理为结构化表示,包括步骤依赖图和实体流图。
- 包含2400个问答对,每个领域-分析组合有100个示例,覆盖不同复杂度和自动化水平的程序文本。
- 实验评估:
- 测试三种类型LLMs:推理专注模型(deepseek-r1:8b)、通用模型(llama3.1:8b)和代码专用模型(granite-code:8b)。
- 结果显示推理模型准确率最高,但推理时间比其他模型慢20倍以上;通用和代码专用模型表现接近随机水平。
- 关键发现:现有LLMs在数据流推理(尤其是数值和时间分析)上存在显著不足,FABLE能有效诊断模型在程序