五大中文大模型数据集与能力深度解析:DeepSeek、Qwen、腾讯元宝、文心一言、Kimi
如整理有误,欢迎及时指正!
1. DeepSeek(深度求索)
1.1 数据集构成
-
核心数据源:
- 数学与代码(占比40%):
- ProofPile:包含数学定理证明、奥赛试题的解题过程(LaTeX格式)
- GitHub精选:过滤Star>100的代码仓库,保留Python/Java/C++代码
- 通用文本(35%):
- 中文维基百科(2023更新版)+ 英文Books3语料库
- 科技论文(arXiv中计算机、数学领域论文)
- 领域数据(25%):
- 法律文书(裁判文书网公开判决书)
- 金融报告(A股/港股上市公司年报)
- 数学与代码(占比40%):
-
数据量级:
- 总规模:8万亿Token(DeepSeek-R1版本)
- 代码数据:1.2万亿Token(Python占比60%)
1.2 处理技术
- 去重策略:
- 基于MinHash的文档级去重(相似度>95%的文本丢弃)
- 代码数据使用AST(抽象语法树)去重
- 质量过滤:
- 数学数据保留完整解题步骤(删除仅含答案的样本)
- 使用规则引擎过滤低质量代码(如注释率<10%的文件)
2. Qwen(通义千问,阿里云)
2.1 数据集构成
-
核心数据源:
- 多语言混合(中文70%、英文20%、其他10%):
- 中文:人民日报语料、网络小说、古汉语文献(四库全书精选)
- 小语种:日韩语新闻、东南亚电商评论(Lazada/Shopee爬取)
- 对话数据(15%):
- 人工构造的指令-回答对(涵盖客服、教育场景)
- 社交媒体对话(微博、知乎问答去敏处理)
- 多语言混合(中文70%、英文20%、其他10%):

最低0.47元/天 解锁文章
1548

被折叠的 条评论
为什么被折叠?



