制药行业的数据类型与资源
在制药行业,数据的重要性日益凸显。随着机器学习领域的创新,大量数据被应用于药物发现和开发过程中。然而,数据的整合、使用和比较面临着诸多挑战。
数据背景与挑战
机器学习领域的创新得益于三个方面的进步:云计算环境带来的经济实惠的计算能力的快速扩展、大规模数据收集相关基础设施的加速发展以及方法学的快速进步,尤其是神经网络架构的改进。但在医疗保健领域,这些进步的发展和应用滞后,主要原因是数据的公共使用受限,以及数据集在提供者、支付者和临床试验赞助商之间的孤立性。
药物发现和开发涉及多种不同类型的数据,每种数据都有其用途、优缺点。任务所需的数据类型取决于对当前任务的理解和明确性。随着可用数据量的增加,如何有目的地整合、使用和比较这些数据成为新的挑战。比较数据对于全面了解复杂的疾病至关重要。
数据处理原则与方法
为了应对数据挑战,一种方法是确保数据符合FAIR原则,即可查找(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)。数据FAIR化的通用工作流程包括七个核心步骤:
1. 确定目标
2. 分析数据和元数据
3. 为数据(和元数据)定义语义模型
4. 使数据(和元数据)可链接
5. 将数据托管在某个地方
6. 评估数据
7. 其他关键考虑因素包括分配许可证和与其他FAIR数据结合
数据集成有不同的阶段,如早期、中期和晚期集成。这些阶段涉及将数据集转换为单一表示形式,然后将其用作机器学习算法的输入。中期集成中,会分析多个数据集并学习它们之间共享的表示形式;晚期集成中
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



