一、背景
解决该问题最直观的方式是通过集群的方式消耗更多的显卡资源,但即便如此,海量ID下的分类问题,依然会有如下几个问题:
1.)成本问题:分布式训练框架 + 海量数据情况下,内存开销、多机通信、数据存储与加载都会消耗更多的资源。
2.)长尾问题:实际场景中,当数据集达到上亿ID时,往往其绝大部分ID内的图片样本数量会很少,数据长尾分布非常明显,直接训练难以获得较好效果。
完整内容请点击下方链接查看:
【OpenVI—论文解读系列】达摩院开源低成本大规模分类框架FFC CVPR论文深入解读-阿里云开发者社区
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《 阿里云开发者社区用户服务协议》和《 阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写 侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容
文章探讨了在处理海量ID分类时遇到的成本和长尾问题,指出分布式训练虽能消耗更多资源但也会增加内存开销和通信成本。针对数据长尾分布,介绍了达摩院开源的FFCCVPR框架,该框架旨在提供一种低成本的解决方案。
4048

被折叠的 条评论
为什么被折叠?



