跪着送钱终究是没用的,人家说封就封,连里面的数据都不给你留。所以国产必须要雄起,否则所有人都是loser。
为此,为国产大模型做点反哺,促进国内大模型在AI辅助编程上的整体能力,实现模型层和应用层的良性互动,
我决定为国产大模型做点事:开源一份AI辅助编程数据集和相关的工具套件。
数据集项目地址:https://github.com/allwefantasy/code-dataset
目前主要数据来源为我个人开发的实际项目,涉及到桌面软件,基础库,前后端等等。这些软件都通过 auto-coder.chat + claude sonnet 3.5 生成。并且经过人工校验。
下面是AI辅助编程的本质:
目前累计1282条高质量源码文件+文档 + 修改需求=> SEARCH/REPLACE格式保存的修改后的源码文。
下面是具体的项目数据分布:
如何贡献你的数据
当然,光靠我一个人是远远不够的,必须聚沙成塔才行。任何使用 auto-coder.chat + claude 编程的同学都可以将自己的数据贡献进来。
我们提供了 code-dateset 工具帮助你管理和查看数据。具体做法:
pip install code-dataset
# code-dataset add https://github.com/example/repo.git --alias my-repo
# 添加你d的项目
mkdir code-dataset && cd code-dataset
code-dataset add /path/to/local/repo --alias my-rep
# 更新数据集
code-dataset refresh
# 统计条数
code-dataset count
然后将 code-dataset 目录下的数据拷贝出来,然后作为PR 提交到 https://github.com/allwefantasy/code-dataset 项目即可。
todo: code-dataset 我们很快会推出将commit 和 需求 自动生成数据集的功能,这样无论即使你不使用auto-coder.chat 而是使用 cursor 还是 windsurf 也都能贡献进来。
另外我们也提供了国内的托管地址:
gitcode: https://gitcode.com/allwefantasy11/code-dataset/tree/master
gitee: https://gitee.com/allwefantasy/code-dataset
最后:让AI与程序员一起前行。让程序员力国产模型在AI辅助编程的发展