数据预处理

最新推荐文章于 2024-01-28 14:31:51 发布

RuDing

最新推荐文章于 2024-01-28 14:31:51 发布

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：数据预处理文章标签：数据分析

本文链接：https://blog.youkuaiyun.com/RuDing/article/details/78474941

本文介绍了数据预处理的重要性及常用工具，如anaconda、pandas、numpy、sklearn等。详细阐述了数据预处理的主要任务，包括数据清洗、数据集成、数据变换、数据归约等，以及各种处理方法，如缺失值、异常值处理和数据平衡等。同时提到了数据可视化和建模库，如matplotlib、scikit-learn和Keras。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、初始工具

1.anaconda: IPython、spyder

2.数据处理工具：pandas、numpy、Excel、sql

3.建模工具：sklearn

3.1 内容

3.2 API

数据预处理：
- Pandas:强大、灵活的数据分析和探索工具
- Numpy:数组支持，以及相应的高校处理函数
- Scipy:矩阵支持，以及对应的矩阵数值计算模块
- Matplotlib:强大的数据可视化工具，作图库
- ……
建模：
- Scikit-Learn：支持回归、分类、聚类等的强大机器学习库
- StatsModels：统计建模和计量经济学，包括描述统计、统计模型估计和推断
- Keras：深度学习库，用于建立神经网络以及深度学习模型
- Gensim：文本主题模型的库，文本挖掘用
- TensorFlow、Theano：深度学习
- ……

from sklearn import datasets
import pandas as pd
import numpy as np
from sklearn import preprocessing

#数据举例
iris = datasets.load_iris()
X, y = iris.data, iris.target
testData = pd.read_csv('C:\\Users\\Load_model\\all_model\\traindata_v2.csv')
testData = testData[:10000]
testData.describe().T
# 有时候需要对数据进行合并， pd.merge  pd.concat

#自己生成数据玩一下
playData = pd.DataFrame({
    'fillNan1' : [0,1]*10 + [2]*20 + [np.nan]*10,
    'date' : pd.date_range('20130101', periods=50),
    'continue1' : pd.Series(3,index=list(range(50)),dtype='float32'),
    'continue2' : np.array([3,4,5,6,7] * 10,dtype='int32'),