本文是LLM系列文章,针对《Distilling Desired Comments for Enhanced Code Review with Large Language Models》的翻译。
摘要
由于大型语言模型(LLMs)在代码理解方面的熟练程度,人们对使用LLMs进行代码审查的兴趣日益浓厚。大多数审查场景的主要目标是生成所需的审查意见(DRC),明确指出问题以触发代码修复。然而,由于幻觉等各种原因,现有的基于LLM的解决方案在生成DRC方面并不那么有效。为了提高他们的代码审查能力,他们需要使用一个定制的数据集进行微调,该数据集最好充满DRC。然而,这样的数据集尚不可用,而手动注释DRC太费力,不切实际。在本文中,我们提出了一种数据集蒸馏方法Desiview,该方法可以通过从代码审查数据集中识别DRC来自动构建蒸馏数据集。在CodeReviewer数据集上进行的实验显示,Desiview在精确度、召回率、准确率和F1方面分别达到了88.93%、80.37%、86.67%和84.44%,超过了最先进的方法。为了验证这种提取的数据集对增强LLM代码审查能力的影响,我们首先对最新的LLaMA系列(即LLaMA 3和LLaMA 3.1)进行了微调,以构建模型Desiview4FT。然后,我们通过将那些被确定为非DRC的审查意见反馈给LLM