第八步偏向技能,数据提取,事实上和数据打交道的工作,第一步就是如何处理数据,这里面的技巧和针对性很强,因为数据来源不同,格式不同,甚至还需要自己搜集,而没有现成的数据源,所以所谓单独列出一个环节来值得的,我们来看看原作者思考有哪些步骤是需要掌握的
- Data Ingestion
- Summary of Data Formats 数据格式汇总
- Data Discovery 数据发现
- Data Sources & Acquisition 数据来源与获取
- Data Integration 数据提取
- Data Fusion 数据融合
- Transformation, Enrichment 转换,浓缩
- Data Survey 数据调查
- Google OpenRefine google发布的开源的数据处理软件
- How much Data? 需要多少数据
- Using ETL 使用ETL(Extraction-Transformation-Loading)