【论文】智源CodeGeeX + HumanEval评测集

原创

已于 2024-03-02 20:54:00 修改 · 1.8k 阅读

·

26

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #人工智能 #自然语言处理

于 2024-03-02 20:52:26 首次发布

这篇博客介绍了CodeGeeX模型和HumanEvalX评测集，涉及代码生成、翻译任务及评估方法。CodeGeeX在多语言代码生成上表现出色，尤其在Python上的性能最佳。评测指标如pass@k展示了模型在不同编程语言中的解决方案生成能力。同时，文中探讨了代码翻译中的语言不对称性和多语言模型的解决方案集多样性。

原文arxiv链接

CodeGeeX-github项目链接

CodeGeeX2-Github项目链接（基于ChatGLM2）

目录

CodeGeeX3 2024/1月发布【增加RAG】

HumanEvalX评测

重写代码时的步骤

k分配的多语言衡量

pair语言翻译在观察翻译能力时，发现A到B和B到A之间呈现负相关

XLCoST评测代码翻译任务

TOP Query Layer

预训练设置

CodeGeeX3 2024/1月发布【增加RAG】

这篇论文作为了解代码大模型的入门论文非常适合，介绍了现有的评测流程和训练方法。

HumanEvalX评测

HumanEval是CodeX提出来的的，但是只包含了python的手写问题，这里他们团队对164个问题纯手写的给出了在5种语言【python、C++、Java、Javascirpt、Go、python】上的结果，得到了164x5=820个 question-solution pair，每一个pair都包含以下部分：

以HumanEval - X中的代码生成和翻译任务为例，分别用红色、绿色、蓝色和紫色标记声明、文档、解决方案和测试用例。生成器使用声明和docstring作为输入来生成解。翻译使用两种语言的声明和源语言的解决方案作为输入，生成目标语言( docstring不用于防止模型直接求解问题)的解决方案。

重写代码时的步骤

不同的语言有不同的命名风格，CamelCase：java，snake_case：python
docstring的注释符是不同的
test case需要细化，而不是强迫程序返回不同的结果，e.g 整数转化成二进制，python会在字符串之前加上"0b"，但是java不会
对于rounding函数，python的表现会不同

任务

代码生成

输入：declaration和docstrings，输出：函数的实现

代码翻译

输入包括source语言的declaration和solution，在target语言中添加declaration会使得评估更加容易，尤其是在zero-shot的情况下。

如果加入doctsring，模型会更加直接地去解决描述出来的问题而不是去翻译，所以要去掉。

评测

pass@k

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。