本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。
-
赛题名称:CZII - CryoET Object Identification
-
赛题类型:计算机视觉、3D 物体检测
-
赛题任务:在大型 3D 体积中查找小型生物结构
https://www.kaggle.com/competitions/czii-cryo-et-object-identification
赛题背景
有大量的cryoET层析图尚未被充分挖掘。这些已发布的数据中,越来越多的部分以标准化格式存在于cryoET数据门户(cryoetdataportal.czscience.com)中。挖掘这些数据需要自动识别图像中的每个蛋白质分子。即使对于肉眼可识别的蛋白质,这个问题也尚未得到解决。一个通用的解决方案将揭示细胞的“暗物质”,并将促进成千上万的有助于人类健康的发现。
赛题任务
竞赛旨在开发机器学习算法,用于在3D细胞图像中注释蛋白质复合物,从而加速生物医学科学的发现并推进疾病治疗。竞赛的重点是利用冷冻电子断层扫描(cryoET)来分析蛋白质结构。cryoET可以以接近原子级的细节创建3D图像(称为层析图),展示蛋白质在其非常复杂和拥挤的自然环境中。因此,cryoET具有巨大的潜力来揭示细胞的奥秘。
评价指标
提交内容将通过计算 beta 值为 4 的 F-beta 指标进行评估。
使用 beta 值为 4 的 F-beta 指标是为了优先考虑召回率而不是精确度,在严惩漏掉的粒子的同时对误报更宽容。在这种情况下,如果一个粒子位于感兴趣粒子的半径的 0.5 倍范围内,则该粒子被视为“真实”。
有五种感兴趣的粒子,其中三种“易”粒子(核糖体、类病毒颗粒和裸铁蛋白)分配权重为 1,两种“难”粒子(甲状腺球蛋白和 β-半乳糖苷酶)分配权重为 2。
id,experiment,particle_type,x,y,z
0,TS_5_4,beta-amylase,2983.596,3154.13,764.124
1,TS_5_4,beta-amylase,2983.596,3154.13,764.124
2,TS_5_4,beta-galactosidase,2983.596,3154.13,764.124
etc.
赛题时间轴
-
2024年11月6日 - 开始日期。
-
2025年1月29日 - 参赛截止日期。您必须在此日期之前接受竞赛规则才能参加竞赛。
-
2025年1月29日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。
-
2025年2月5日 - 最终提交截止日期。
赛题数据
赛题专注于在3D层析图中识别与粒子中心对应的点。在测试阶段,您将获得一个名为“实验”的3D数组列表进行处理,并需要提交一个包含所有实验中5种粒子类型的粒子位置的CSV文件。

数据包含6种不同难度级别的粒子类型。
-
apo-ferritin(易)
-
beta-amylase(不可能,不计分)
-
beta-galactosidase(难)
-
ribosome(易)
-
thyroglobulin(难)
-
virus-like-particle(易)
这些断层图是3D数组,以多尺度3D OME-NGFF Zarr数组的形式提供。可以使用zarr、ome-zarr和copick库打开这些断层图。
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

615

被折叠的 条评论
为什么被折叠?



