On Explaining (Large) Language Models For Code Using Global Code-Based Explanations

文章主要内容总结

本文提出了一种名为CodeQ的可解释性方法,旨在通过全局代码解释来分析大型语言模型(LM4Code)的代码生成决策过程。CodeQ通过三个核心步骤实现:

  1. Rationalization:提取影响代码预测的关键输入token子集(rationale),通过贪心算法逐步选择对目标令牌概率贡献最大的token。
  2. Mapping:将token映射到更高层次的代码概念(如语法结构、自然语言元素等),构建可解释性矩阵。
  3. Reduction:通过统计聚合(如平均值、中位数)生成全局可解释性张量,揭示模型在代码生成中的系统性趋势。

通过实验验证,CodeQ能够有效识别模型依赖的代码概念(如if语句、缩进等),并发现模型可能过度依赖无意义token(如标点符号)的问题。用户研究表明,CodeQ的解释具有可读性和实用性,可帮助开发者理解模型行为并促进模型调试。

创新点

  1. 全局代码解释框架:首次提出基于代码概念的全局解释方法,超越传统token级分
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值