教你如何成为数据科学家(八)

本文详细介绍了数据处理的九大关键步骤,包括数据输入、格式汇总、数据发现、来源与获取、整合、提取、融合、转换与浓缩、调查等。强调了在面对无限数据时,需明确需求量并采取迭代方法,适时停止数据收集或优化数据处理流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第八步偏向技能,数据提取,事实上和数据打交道的工作,第一步就是如何处理数据,这里面的技巧和针对性很强,因为数据来源不同,格式不同,甚至还需要自己搜集,而没有现成的数据源,所以所谓单独列出一个环节来值得的,我们来看看原作者思考有哪些步骤是需要掌握的


  • Data Ingestion
  1. Summary of Data Formats                                                 数据格式汇总
  2. Data Discovery                                                                  数据发现
  3. Data Sources & Acquisition                                               数据来源获取
  4. Data Integration                                                                 数据提取
  5. Data Fusion                                                                       数据融合
  6. Transformation, Enrichment                                              转换,浓缩
  7. Data Survey                                                                      数据调查
  8. Google OpenRefine                                                          google发布的开源的数据处理软件
  9. How much Data?                                                               需要多少数据
  10. Using ETL                                                                          使用ETL(Extraction-Transformation-Loading
实际上关键就是第9步,你必须知道什么时候需要适可而止。数据理论上是无穷的,每天都有新的数据生成出来,分析问题的时候,我们需要有明确的认识,需要多少数据就足够了。必须坚持迭代的思想,如果发现不够,应该进一步的搜集;如果发现处理时间非常长,先考虑一下是否是数据多余了,然后再考虑搭建分布式的处理系统来完成。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值