kaggle比赛中的private leaderboard和public leaderboard的区别

最新推荐文章于 2022-04-05 13:40:31 发布

转载最新推荐文章于 2022-04-05 13:40:31 发布 · 1.4w 阅读

机器学习专栏收录该内容

173 篇文章

订阅专栏

本文详细解析了Kaggle竞赛中PublicLB和PrivateLB的运作机制，阐述了测试集如何被划分为两个部分，以及这两部分在比赛过程中的不同作用。作者强调了不要过度依赖PublicLB，而应该关注模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

特别说明一下Kaggle 在计算得分的时候，有Public Leaderboard (LB)和 Private LB 之分。具体而言，参赛选手提交整个测试集的预测结果，Kaggle 使用测试集的一部分计算得分和排名，实时显示在 Public LB上，用于给选手提供及时的反馈和动态展示比赛的进行情况；测试集的剩余部分用于计算参赛选手的最终得分和排名，此即为 Private LB，在比赛结束后会揭晓。用于计算 Public LB 和 Private LB 的数据有不同的划分方式，具体视比赛和数据的类型而定，一般有随机划分，按时间划分或者按一定规则划分。大家可以合理利用Public Leaderboard的排名和反馈来适当调整自己的策略，但是不要太过依赖Public Leaderboard，有些时候它的数据分布和Private Leaderboard会有差异，不要在Public Leaderboard上过拟合哦，还是好好利用你的validation set吧，以便得到更好的泛化能力。

感谢Chi Yu's Blog的解释：

我提交过,已经搞懂了,意思就是:
kaggle给的测试集中包含AB两部分,
但是不告诉你哪部分是A,哪部分是B.
要求你按次序提交这个测试集每条数据的预测结果.
提交后,因为你是按次序提交的,所以kaggle服务器自己知道哪些序号对应的数据结果传给private LB,
哪些传给public LB.
比赛途中,只让看public LB,为了防止参赛者预测结果不具备普适性,参赛结果以private LB为准.

转自：https://blog.youkuaiyun.com/pearl8899/article/details/82145480