今天,我要为国产大模型做点事

跪着送钱终究是没用的,人家说封就封,连里面的数据都不给你留。所以国产必须要雄起,否则所有人都是loser。

20732be3fdf9ec039767d64c2c37b29d.png

为此,为国产大模型做点反哺,促进国内大模型在AI辅助编程上的整体能力,实现模型层和应用层的良性互动,

我决定为国产大模型做点事:开源一份AI辅助编程数据集和相关的工具套件。

数据集项目地址:https://github.com/allwefantasy/code-dataset

目前主要数据来源为我个人开发的实际项目,涉及到桌面软件,基础库,前后端等等。这些软件都通过 auto-coder.chat + claude sonnet 3.5 生成。并且经过人工校验。

840e8fae6f82e995057d2f1d28858254.png

下面是AI辅助编程的本质:

0e869e6419836eca7e1892b03291e341.png

目前累计1282条高质量源码文件+文档 + 修改需求=> SEARCH/REPLACE格式保存的修改后的源码文。

下面是具体的项目数据分布:

b228718af320d9d3575be947ae9ab621.png

如何贡献你的数据

当然,光靠我一个人是远远不够的,必须聚沙成塔才行。任何使用 auto-coder.chat + claude 编程的同学都可以将自己的数据贡献进来。

我们提供了 code-dateset 工具帮助你管理和查看数据。具体做法:

pip install code-dataset
# code-dataset add https://github.com/example/repo.git --alias my-repo
# 添加你d的项目
mkdir  code-dataset && cd code-dataset 
code-dataset add /path/to/local/repo --alias my-rep
# 更新数据集
code-dataset refresh
# 统计条数
code-dataset count

然后将 code-dataset 目录下的数据拷贝出来,然后作为PR 提交到 https://github.com/allwefantasy/code-dataset  项目即可。

todo: code-dataset 我们很快会推出将commit 和 需求 自动生成数据集的功能,这样无论即使你不使用auto-coder.chat 而是使用 cursor 还是 windsurf 也都能贡献进来。

另外我们也提供了国内的托管地址:

  1. gitcode: https://gitcode.com/allwefantasy11/code-dataset/tree/master

  2. gitee: https://gitee.com/allwefantasy/code-dataset

最后:让AI与程序员一起前行。让程序员力国产模型在AI辅助编程的发展

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值