文章大纲
我们目前进入了一个大数据的时代。以我目前经常处理的医疗保健数据为例。
随着时间的推移医疗保健数据的生成速度越来越快,预计到2020年将达到35 ZB(1ZB大约是10的9次方TB)。无论是出于患者护理、研究还是法律原因,能够经济高效、安全地管理这些数据对医疗保健提供者来说都越来越重要。
医疗保健提供商必须能够摄取、存储和保护大量数据,包括临床、基因组、设备、财务、供应链和保险理赔等。
本文尝试从数据 挖掘、分析的一般步骤入手,基于理论化的描述结合具体例子详细介绍挖掘分析建模之前数据处理的目的及方法论。
数据分析的一般流程:
- 确定目标
- 获取数据源
- 数据探索
- 数据预处理
- 挖掘分析建模
- 模型效果评价
借用一张同事绘制的图片
统一数据接入
数据接入,尤其是针对目前多元异构数据的(批处理数据、实时数据流式数据)接入,我们称之为统一数据接入。
文章链接: