数据治理—数据配比

最新推荐文章于 2025-01-01 22:36:53 发布

苍墨穹天

最新推荐文章于 2025-01-01 22:36:53 发布

阅读量346

点赞数 4

分类专栏：数据治理文章标签：数据治理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Mooczx/article/details/144819036

版权

数据治理专栏收录该内容

3 篇文章

订阅专栏

不同的数据源，在上文中介绍清洗和去重的时候也要有不同的阈值：

清洗的时候，“代码”和“知识类文本”当然要使用不同的阈值来决定是否是高质量；
去重的时候，“新闻”类可能 70% 的重复度就不要，“知识”类则可以 85% 的相似度才丢弃，在丢去重复文档的时候，优先保留数据打分器比较高的数据。

大部分的技术报告里，应该都提及了自己的数据是如何配比的，基本上都是“知识 + 代码 + 逻辑”三个大类目，其中知识数据分文中文知识和英文知识，逻辑数据则可以认为是 math 数据和 cot 数据的混合体。整体上，大部分中文模型的配比都在这个区间左右：中：英：code = 4:4:2（逻辑数据的比例我没有写进去，加入多少取决于你能收集多少，其他三类数据应该是要多少有多少的存在）。

我们可以根据自己的实际情况调整配比，但英文的比例一定不能太低。目前中文数据的质量不如英文数据质量基本已经成功共识，导致这个现象可能有两个原因：

中文确实比英文难学，语言空间的复杂度更高；
中文语料无论是干净程度还是数量级，都无法与英文语料相比较。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。