本文是LLM系列文章,针对《UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large Language Models for Program Testing》的翻译。
摘要
1 引言
2 相关工作
3 UniTSyn数据集的设计
4 实验
5 结论
在本文中,我们介绍了UniTSyn,这是一个新颖、多样化和大规模的数据集,包含功能级焦点测试对,旨在刺激人工智能理解和编写程序,特别是测试用例。该数据集不仅在大小和多样性方面表现出色,而且可以轻松扩展到其他编程语言以执行特定任务。我们进一步建立了一个基于UniTSyn的自回归模型来验证所收集的测试代码语料库的质量。这体现在它在生成测试的准确性和完整性方面的优越性上。我们希望UniTSyn将推动人工智能在软件测试和程序理解方面的发展。