帮你写代码的大模型CodeGeeX!

文章介绍了清华大学KEG实验室开发的CodeGeeX,这是一个130亿参数的代码生成模型,可免费替代GitHub的Copilot。CodeGeeX基于transformers架构,训练数据包括开源代码,提供VSCode和JetbrainsIDEs的插件,并在HumanEval-X基准上表现出色。

从Copilot说起

很多人都听说过使用过Copilot。Copilot是GitHub于2021年推出的一款AI编程工具。它可以为用户在各种开发环境中写代码时自动提供建议,支持Python、JavaScript、Java和Go等编程语言。它可以根据上下文自动写代码,包括文档字符串、注释、函数名称、代码,只要用户给出提示,就可以写出完整的函数。这项产品从2022年6月起正式向用户收费,每个月需要支付10美元。虽然受到许多质疑,但也收获了很多好评,因为它实在是太智能了。

Copilot背后,是OpenAI的大模型Codex。它使用了大量的高质量开源代码作为训练数据,基于GPT-3的框架进行训练。

今天要介绍的这个工作,则是来自于清华的KEG实验室。他们不仅利用公开的代码数据训练了一个130亿参数的代码生成模型(名为CodeGeeX),还将所有代码全部开源。并且,也像Copilot一样开发了VS Code和Jetbrains IDEs的插件,任何人都可以免费使用。如果不想为Copilot支付每月10刀的费用,不如来试试这款国产的“平替”。

CodeGeeX模型

CodeGeeX是一个基于transformers的大规模预训练编程语言模型。它是一个从左到右生成的自回归解码器,将代码或自然语言标识符(token)作为输入,预测下一个标识符的概率分布。CodeGeeX含有40个transformer层,每层自注意力块的隐藏层维数为5120,前馈层维数为20480,总参数量为130亿。模型支持的最大序列长度为2048。

CodeGeeX的训练语料由两部分组成。第一部分是开源代码数据集,The Pile与CodeParrot。The Pile包含GitHub上拥有超过100颗星的一部分开源仓库,在训练时使用了其中23种语言的代码。第二部分是补充数据,直接从GitHub开源仓库中爬取Python、Java、C++代码,并按一定条件进行一筛选。

CodeGeeX模型的训练基于华为Mindspore 1.7框架。在训练过程中使用了1536个昇腾910 AI处理器(32GB),历经两个月的时间。除了Layer-norm与Softmax使用FP32格式以获得更高的精度与稳定性,模型参数整体使用FP16格式,最终整个模型需要占用约27GB显存。为了增加训练效率,使用8路模型并行和192路数据并行的训练策略,微批大小为16、全局批大小为3072,并采用ZeRO-2优化器降低显存占用。

模型评价

为了更好地评测代码生成模型的多语言生成能力,清华实验室的团队还构建了一个新的评价基准HumanEval-X。此前的多语言代码生成能力评价大多是基于代码的语义相似度来衡量的。这种衡量方式对于自然语言生成问题不大,但是对于代码生成就显得不够科学了。而新提出的评价基准HumanEval-X则可用于衡量生成代码的功能正确性。覆盖Python、C++、Java、JavaScript、Go五种语言,可用于多种任务。

将CodeGeeX与另外两个开源代码生成模型进行比较,分别为Meta的InCoder与Salesforce的CodeGen,选取InCoder-6.7B、CodeGen-Multi-6B 与 CodeGen-Multi-16B。CodeGeeX能获得最佳的平均性能,显著超越了参数量更小的模型(7.5%~16.3%的提升),与参数量更大的模型CodeGen-Multi-16B表现相当(平均性能 54.76% vs. 54.39%)。

(左上:在HumanEval-X的代码生成任务中,模型在所有语言上的平均表现。其他:在五种语言上具体的pass@k(k=1,10,100)性能。CodeGeeX的平均表现优于InCoder-6.7B和CodeGen-Multi-6B/16B。)

CodeGeeX插件

清华实验室不仅发布了CodeGeeX模型,还顺带提供了用于VS Code和Jetbrains IDEs(IntelliJ IDEA、PyCharm等)的辅助编程插件,都可以在相应的插件市场里搜索“codegeex”下载并免费使用。

在CodeGeeX的VS Code插件中,提供了四种使用模式:

1、自动模式

在编写代码的过程中,插件可以根据前文的代码或注释自动给出补全提示,按tab键后补全提示就会自动上屏。

2、交互模式

通过“Ctrl+Enter”激活交互模式,CodeGeeX将根据当前已有的代码,为后续生成多段代码候选,并显示在右侧窗口中。点击候选代码上方的“use code”即可插入结果到为当前光标位置。

3、翻译模式

可以在IDE中粘贴一段其他语言代码,选中并按“Ctrl+Alt+T”激活翻译模式。选择当前选中代码的语言,CodeGeeX将会把代码翻译成IDE当前编写的语言,点击翻译结果上方的“use code”即可将翻译结果插入文件。

4、提示模式

提示模式的原理是利用CodeGeeX强大的少样本生成能力,可以在输入中添加额外的提示来实现一些有趣的功能,包括且并不限于代码解释、概括、以特定风格生成等。这部分算是深度利用了大模型的能力,感兴趣的朋友可以自己研究一下,就不在这里过多展开了。

Jetbrains IDE插件目前只有前两种模式,也覆盖了日常使用的大部分场景了。

 文章转自帮你写代码的大模型CodeGeeX!

好的,这次聚焦于免费的AI编程插件,这个列表非常实用。我已经根据最新的信息,特别是针对免费使用场景,重新为你评估了这五个选项。 下面这个表格可以你快速了解它们的核心特性和差异。 插件名称 免费模式 核心优势 需注意的点 特别适合的场景 通义灵码 功能丰富的免费版 中文理解优,功能全面(代码补全、生成、解释、单元测试等),集成DeepSeek模型,对Java/Spring生态支持好。 免费版可能存在每日Token限制,高频使用可能触发冷却。 需要强大中文支持和全面功能的Java开发者,愿意接受轻度使用限制。 CodeGeeX 完全免费 由清华大学开发,对个人开发者完全免费,中文支持和社区文档友好,提供代码补全、解释、翻译等功能。 代码生成准确率和响应速度相较于顶尖付费工具有差距。 预算极度敏感的个人开发者/学生,寻找一款基础功能齐全的国产助手。 Tabnine 基础版免费 老牌AI编程工具,基础版提供代码补全,支持多种IDE和语言。 免费版功能较为基础(主要是代码补全),高级功能需付费,补全建议可能偏通用。 需要一款轻量、稳定、支持多语言代码补全工具,对高级功能需求不强。 Trae 免费 字节跳动出品,专为中文开发者优化,能高效将中文需求转化为代码,支持多模态输入。 作为较新的IDE/插件,生态和稳定性有待更多用户检验,高度依赖网络。 希望探索AI原生开发体验,尤其偏好通过自然中文对话进行编码的开发者。 DeepSeek-Coder 开源免费 模型开源,代码生成质量高,支持私有化部署,数据隐私控制度高。 在IDE中通常需要通过第三方插件(如MarsCode)集成,体验和易用性可能不如官方插件。 极度重视代码隐私和安全的团队或个人,有技术能力进行自行部署和维护。 💡 如何选择? 结合上面的对比,你可以根据自己的核心需求来做决定: * 追求功能全面与中文优化:通义灵码是目前免费插件中功能非常均衡和强大的选择,特别适合Java开发者。 * 追求完全免费与基础保障:CodeGeeX是零成本入门的最佳选择,作为国产插件对中文用户很友好。 * 追求极致的数据隐私:如果代码安全是第一位,考虑开源且可私有化部署的DeepSeek模型。 * 愿意尝试新事物:如果你对字节跳动的产品有信心,可以试试专为中文设计的Trae。 希望这份针对免费场景的梳理能你做出更清晰的选择。如果你对某个插件的特定功能特别感兴趣,我可以为你提供更深入的分析。
最新发布
11-28
好的,我可以一个简单的层次分析模型的Python代码。但是需要先了解层次分析模型的原理和流程。 层次分析模型(Analytic Hierarchy Process,AHP)是一种多准则决策分析方法,用于处理多种因素和不同层次的决策问题。AHP通过构建层次结构模型,将决策问题分解为一系列层次,每个层次对应一个指标或因素,通过对各个层次进行两两比较,得出各因素的权重,从而进行决策。 以下是一个简单的AHP模型Python代码,用于处理两个因素的决策问题: ``` import numpy as np # 构建层次结构模型 criteria = np.array([ [1, 2], # 准则层 [0.5, 1] # 指标层 ]) # 计算准则层权重 criteria_weight = np.sum(criteria, axis=1) / np.sum(criteria) # 计算一致性比率CR eigenvalue, eigenvector = np.linalg.eig(criteria) max_eigenvalue = np.max(eigenvalue) CR = (max_eigenvalue - len(criteria)) / (len(criteria) - 1) / 0.58 # 计算指标层权重 indicator_weight = np.dot(criteria_weight, criteria) # 输出结果 print("准则层权重:", criteria_weight) print("一致性比率CR:", CR) print("指标层权重:", indicator_weight) ``` 以上代码中,我们首先构建了一个层次结构模型,其中准则层包含两个准则,指标层包含两个指标。然后,我们计算了准则层的权重,以及一致性比率CR。最后,我们计算了指标层的权重,并输出结果。 需要注意的是,以上代码仅适用于处理两个因素的决策问题。如果需要处理更多的因素,需要对代码进行适当修改。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

放码过来a

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值