CGE：基于Causal LLM的Code Embedding模型

最新推荐文章于 2025-01-07 15:10:00 发布

原创

最新推荐文章于 2025-01-07 15:10:00 发布 · 1.3k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #人工智能 #开源

近日，CodeFuse-CGE 项目在外滩大会展出，吸引了众多技术、产品从业者的到访，部分参观者表示“文搜代码”令人耳目一新，期待模型后续的表现。

以下是 CodeFuse-CGE 项目的相关开源介绍，如果对这部分内容感兴趣，欢迎访问我们的项目主页 GitHub - codefuse-ai/CodeFuse-CGE 为我们点赞，支持我们的项目。

01简介

Code Embedding 是一种将代码片段转化为向量表示的技术。这种表示形式使得机器学习模型能够更好地理解和处理代码，在自动化程序分析、代码搜索、代码补全，以及自动化测试等领域都起到非常重要的作用。大语言模型（Large Language Models）因为其在大量的语言数据上预训练，可以获得对语义细微表示的能力。最近，LLMs 在代码生成、代码补全等任务上都有非常出色的表现。

目前 Code Embedding 模型主要基于 Encoder 架构，如 CodeBert、Unixcoder 等。又或者基于 Encoder-Decoder 架构，如 CodeT5、CodeT5+ 等。然而局限于架构设计和模型大小，他们很难获取到更丰富的语义表示能力。

我们以 CodeQwen1.5-7B-Chat 和 Phi-3.5-mini-instruct 模型作为基座模型，通过一个交叉注意力计算模块来提取输入序列的 Embedding，将文本表征和代码表征投射到同一空间中。我们的方法可以激发出基座模型强大的代码、文本的语义表示能力。实验表明我们的方法在 CSN 和 AdvTest 这 2 个 NL2Code Benchmarks 上都有着超越 SOTA 的能力。我们将开源 CGE-Large 和 CGE-Small 两种大小的模型。

TLDR

CGE 即 Code General Embedding。我们提出了一种基于大语言模型的获取 Embedding 方案，通过 Lora 微调来借助大语言模型的语义能力，激发其语义表征能力，在 2 个 NL2Code Benchmarks 上达到了 SOTA 的表现。

🏡Homepage：

https://github.com/codefuse-ai/CodeFuse-CGE

hCGE

(Please give us your support with a Star🌟 + Fork🚀 + Watch 👀)