新冠疫情下的医学研究:挑战与机遇
1. COVID - 19检测研究的差距
在COVID - 19检测的研究中,尽管许多论文成功设计出了准确率较高的模型,但仍存在一些常见的局限性和研究差距。
1.1 大型数据集的缺失
大多数研究工作中使用的数据集样本量非常小,特别是COVID - 19类别的样本量更小。由于COVID - 19已传播到大多数国家,病毒存在多种变体,因此需要更大的数据集来使检测模型具有更广泛的适用性。一个包含不同年龄组和不同地区样本的数据集,有助于开发和训练可推广且能够实际部署的模型。要创建这样的大型数据集,需要当地医院以及州和中央政府的合作,否则大规模收集数据将非常困难。部分研究使用生成对抗网络(GAN)来生成合成图像以增加样本量,未来研究人员可以改进现有的合成数据集开发方法,并提出独特而高效的方式。
1.2 不平衡的数据集
不平衡数据集是影响机器学习模型有效构建的最普遍问题之一。在大多数COVID - 19检测的研究工作中,作者们都提到了这个问题。例如,某些研究使用的数据集里,正常图像和异常图像的数量差异较大,COVID - 19样本与健康和其他肺部疾病样本的比例严重失衡。许多研究使用合成样本或加权学习方法来解决这个问题,但这些方法需要根据所有性能指标以及与放射科医生的实时诊断进行验证,并且需要测试这些方法在修改样本后的计算复杂度。
| 研究 | 数据集情况 | 解决方法 |
|---|---|---|
| [9] |
超级会员免费看
订阅专栏 解锁全文
2916

被折叠的 条评论
为什么被折叠?



