临床数据的统计数据挖掘
1. 数据挖掘的定义
数据挖掘广义上被理解为一套分析工具和方法,用于从数据中提取有价值的信息,并将其转化为有用的知识和实用工具。不同领域对其定义有所不同:
- 数据库知识发现(KDD)认为:数据挖掘是从大型数据集或数据库中提取隐含的、先前未知的且潜在有用的信息。
- 统计学家Hand等人(2001)认为:数据挖掘是对(通常是大型的)观测数据集进行分析,以发现意外的关系,并以新颖的方式总结数据,这些方式对数据所有者既易于理解又有用。
- 在制药行业,数据挖掘可宽泛地定义为对现有临床数据进行的任何事后分析,以回答内部和外部利益相关者的科学、临床和商业问题。
临床数据挖掘所处理的问题通常具有以下特点:
- 数据量大 :在记录数量(患者)和/或特征数量(变量)方面有大量可用数据,这些数据通常来自观察性研究,或包含随机试验中的“观察性元素”,且收集目的与后续的数据挖掘分析不同,分散在不同数据库中。
- 关系复杂 :需要从数据中学习的关系可能被多种因素掩盖,包括随机和系统误差、数据收集和变量构建中的不一致性、缺失数据、无关数据(噪声特征)、相关数据的冗余、时间依赖的因果机制、短期和长期时间效应、变量间的动态依赖、未知的因果关系以及未测量的混杂因素和虚假关联等。
2. 机器学习与数据挖掘框架
数据挖掘和机器学习领域结合了计算机科学和统计学方法,有其独特的目标和重点。
- 机器学习的目标包括构建算法解决方案和机器来解决问题,以及从数据中进行可靠推断。其独特之处在于强调计算机的“自我编程”能力,以及如何有效地捕获、存储和检索数据
超级会员免费看
订阅专栏 解锁全文
1058

被折叠的 条评论
为什么被折叠?



