教你如何成为数据科学家(九)

本文探讨了数据处理中的关键步骤,如数据清理、特征提取等,并强调了处理过程中的人工干预必要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据再加工也是一门艺术,通过上面的提取,我们有了原始的数据,但是数据之间的关系通常分散在多个数据表中,需要我们进行数据再加工,将相关联的信息提取到同一个层次上,然后再进行继续分析。



  1. Dimensionality & Numerosity Reduction                                   维度与数值归约
  2. Normalization                                                                           正态化
  3. Data Scrubbing                                                                        数据清理
  4. Handling Missing Values                                                          处理丢失的值
  5. Unbiased Estimators                                                                无偏估计量
  6. Binning Sparse Values                                                            分级稀疏
  7. Feature Extraction                                                                   特征提取
  8. Denoising                                                                                去噪
  9. Sampling                                                                                 抽样
  10. Stratified Sampling                                                                  分层抽样
  11. Principal Component Analysis                                                主成分分析  
这里要提醒一下,不是所有的数据都可以用程序处理,通常情况下,面对现有的数据,当中会有很多的错误,包括数据丢失,或者不合法,或者不符合逻辑等等,不存在一个万能的程序能帮助你一次将现有的数据都处理好。通常都会有一点人肉处理在这个环节,主要是数量的多少罢了。


所以编写处理程序的时候,不是通常的越早抛出错误,越早退出就好,而是要尽可能的处理,将所有的异常情况、数据,用某些方式记录下来,待后续处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值