数据预处理

本文介绍了数据预处理的重要性及常用工具,如anaconda、pandas、numpy、sklearn等。详细阐述了数据预处理的主要任务,包括数据清洗、数据集成、数据变换、数据归约等,以及各种处理方法,如缺失值、异常值处理和数据平衡等。同时提到了数据可视化和建模库,如matplotlib、scikit-learn和Keras。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、初始工具

1.anaconda: IPython、spyder

2.数据处理工具:pandas、numpy、Excel、sql

3.建模工具:sklearn

3.1 内容
3.2 API
  • 数据预处理:

    • Pandas:强大、灵活的数据分析和探索工具
    • Numpy:数组支持,以及相应的高校处理函数
    • Scipy:矩阵支持,以及对应的矩阵数值计算模块
    • Matplotlib:强大的数据可视化工具,作图库
    • ……
  • 建模:

    • Scikit-Learn:支持回归、分类、聚类等的强大机器学习库
    • StatsModels: 统计建模和计量经济学,包括描述统计、统计模型估计和推断
    • Keras:深度学习库,用于建立神经网络以及深度学习模型
    • Gensim:文本主题模型的库,文本挖掘用
    • TensorFlow、Theano:深度学习
    • ……
from sklearn import datasets
import pandas as pd
import numpy as np
from sklearn import preprocessing

#数据举例
iris = datasets.load_iris()
X, y = iris.data, iris.target
testData = pd.read_csv('C:\\Users\\Load_model\\all_model\\traindata_v2.csv')
testData = testData[:10000]
testData.describe().T
# 有时候需要对数据进行合并, pd.merge  pd.concat

#自己生成数据玩一下
playData = pd.DataFrame({
    'fillNan1' : [0,1]*10 + [2]*20 + [np.nan]*10,
    'date' : pd.date_range('20130101', periods=50),
    'continue1' : pd.Series(3,index=list(range(50)),dtype='float32'),
    'continue2' : np.array([3,4,5,6,7] * 10,dtype='int32'),
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值