数据分析之路持续学习中- - -
近期学习了机器学习中的数据预处理章节,在此进行分享,欢迎大家讨论指正。
顺便说一下,这里我使用的软件是Anacnoda 3中已经安装好的Spyder 3,这个软件用起来很爽,适合用来做数据分析,缺点就是不好进行调试以及管理大型项目。
如果是要用来做网页等大型工程的话,建议:Anacnoda + Pycharm。
数据预处理有哪些步骤?
机器学习中,数据预处理全流程一般包含以下6大步骤:
(1)导入标准库:如:pandas、numpy、matplotlib等;
(2)导入数据集:将需要分析的数据读入;
(3)缺失数据处理:对数据表中的空值进行处理;
(4)分类数据:将需要的维度数据(如:国家)转换为能带入公式中的可度量值;
(5)数据划分训练集、测试集:将数据集的数据按一定比例进行随机拆分,形成训练集与测试集;
(6)特征缩放:将不在同一数量级的数据进行处理,加快程序运行速度,以及尽快得到收敛结果。
一般情况下,我们得到的数据集都是经过处理的比较规整的数据,因此,常用的4个步骤是:
- 导入标准库;
- 导入数据集;
- 数据划分训练集、测试集;
- 特征缩放;
下面将对6个步骤进