关于DeepSeek与ChatGPT等模型的原始训练数据

最新推荐文章于 2025-03-17 14:09:50 发布

月光技术杂谈

最新推荐文章于 2025-03-17 14:09:50 发布

阅读量613

点赞数 3

分类专栏：大模型初探文章标签： chatgpt deepseek 训练数据语料库 AI模型训练样本数据分类

本文链接：https://blog.youkuaiyun.com/seaneer/article/details/145633210

版权

23 篇文章

订阅专栏

DeepSeek与ChatGPT等模型的原始训练数据是否一样

训练数据的相似性与差异性

相似性：
DeepSeek和ChatGPT等模型在训练数据上有一定的重叠。它们都使用了大量的公开互联网文本，包括网页内容、书籍、论文、社交媒体帖子等。这些数据为模型提供了广泛的知识基础和语言理解能力。
差异性：
DeepSeek更侧重于中文语境的优化，因此其训练数据中包含了更多的中文互联网内容，如新闻、论坛、百科等。而ChatGPT则更加注重多语言的支持，覆盖了更广泛的全球语言和文化背景。

网页文本示例

"量子计算的超导量子比特稳定性研究取得突破，IBM团队在《自然》杂志发文称，其新型冷却技术可将退相干时间延长至1毫秒以上。"

社交媒体对话示例

UserA: 刚换了RTX 5090显卡，跑AI模型速度飞起！  
UserB: 羡慕！我还在用旧卡，渲染个视频都要半天...

合成数据案例

Q: 如何计算圆柱体体积？  
A: 圆柱体体积公式为V=πr²h，其中r为底面半径，h为高度。例如，半径3cm、高5cm的圆柱体积为141.37cm³。

DeepSeek与ChatGPT在基础数据源上存在部分重叠（尤其是公开网页和合成数据），但前者更依赖中文生态数据。行业当前依赖混合数据源（原生+合成）以平衡质量与成本，而数据污染已成为影响模型自主性的关键挑战。