
Python数据分析处理
对于Python进行数据处理分析的总结
mocas_wang
摸鱼专家
展开
-
get_dummies的编码用法
one-hot encodingone-hot的基本思想:将离散型特征的每一种取值都看成一种状态,若你的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的状态,one-hot编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。pandas.get_dummies(data, prefix=None, prefi...原创 2020-01-17 19:20:21 · 1513 阅读 · 0 评论 -
datafram的各类数值索引选取,以isnull选取空值行(非空值行)的操作为例
假如df为datafram格式,df['index']为series格式,df[['index']]为datafram格式1.判断series是否是空,判断非空数值pd.isnull(row)#row为series值row.notnull() ##row为series,和上面功能一样if (pd.notnull(row["Date"]))&(pd.notnull(row[...原创 2020-01-17 11:24:02 · 2085 阅读 · 0 评论 -
Ubuntu重装anaconda3,安装TensorFlow
1.打开anaconda目录,删除anaconda。一般情况下,anaconda在home目录:~$ sudo rm -r anaconda3 2.选择anaconda版本先查看anaconda版本和Python版本对应关系。3.anaconda镜像下载安装选择Python3.6.5版本对应的anaconda3-5.2.0版本,下载地址以这个为准,清华的镜像少了很...原创 2020-01-07 20:32:28 · 981 阅读 · 0 评论 -
sklearn机器学习之分类预测算法应用
RandomForestClassifier随机森林分类预测RandomForestClassifier用于分类划分预测回归##开始建立模型,随机森林预测from sklearn.ensemble import RandomForestClassifier ##rf = RandomForestClassifier(n_estimators=150,min_samples_leaf=...原创 2019-11-24 11:19:10 · 2626 阅读 · 0 评论 -
sklearn机器学习之回归预测的算法应用
只讲述应用方法,具体数学原理自行查阅。。linear_model最小二乘线性回归注意:fit(x,y)之前并未对x进行归一化,测试时可以提前进行归一化,各特征属性量尺寸不宜相差过大。在使用模型时只需要更改train_df的数据选择,X代表训练集的特征向量,y代表训练集的结果数据。测试时只需更改test数据选择即可,predictions代表回归预测输出,arg为y与x的系数关系...原创 2019-11-24 10:52:01 · 1447 阅读 · 0 评论 -
pandas数据处理之绘制子图图像subplot,subplot2grid,add_subplot,subplots,
matplotlib 是可以组合许多的小图, 放在一张大图里面显示的. 使用到的方法叫作 subplot.使用import导入matplotlib.pyplot模块, 并简写成plt. 使用plt.figure创建一个图像窗口.在matplotlib中,整个图像为一个Figure对象。在Figure对象中可以包含一个或者多个Axes对象。每个Axes(ax)对象都是一个拥有自己坐标系统的绘图...原创 2019-11-21 21:23:52 · 7298 阅读 · 2 评论 -
pandas处理数据之loc切片的用法
loc的使用简单的说:iloc,即index locate 用index索引进行定位,所以参数是整型,如:df.iloc[10:20, 3:5]loc,则可以使用column名和index名进行定位,如:df.loc[‘image1’:‘image10’, ‘age’:‘score’]首先初始化一个df方便使用import pandas as pdimport numpy ...原创 2019-11-20 21:49:54 · 4465 阅读 · 1 评论 -
pandas数据处理之groupby的常用用法
groupby的数据处理简单用法groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)1、by:mapping, function, str, or iterable。用于确定gro...原创 2019-11-20 21:49:15 · 3108 阅读 · 0 评论 -
数据处理基础之统计方法和可视化图表构建
1.对某一列的几种属性进行统计,例如下面统计数据中Survived列的0,1属性,和pclass的1,2,3三种属性。import pandas as pdimport numpy as npfrom pandas import Series,DataFrame#设置数据显示过程import matplotlib.pyplot as pltdata_train=pd.read_c...原创 2019-11-19 21:11:51 · 1089 阅读 · 0 评论 -
pandas数据处理基础之丢失数据处理(待续)
查看数据缺失情况:data.isnull()##元素级别的判断,把对应的所有元素的位置都列出来,元素为空或者NA就显示True,否则就是Falsedf.isnull().any()##列级别的判断,只要该列有为空或者NA的元素,就为True,否则Falsedata[data.isnull().values==True]##可以只显示存在缺失值的行列,清楚的确定缺失值的位置。dat...原创 2019-11-19 18:55:19 · 628 阅读 · 0 评论 -
pandas数据处理基础之标准化与标签数值化
fit(): Method calculates the parameters μ and σ and saves them as internal objects.解释:简单来说,就是求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性。transform(): Method using these calculated parameters apply the transfo...原创 2019-11-18 21:49:31 · 5803 阅读 · 0 评论 -
pandas数据处理基础之变量相关性分析
1.各数值变量的相关性分析,绘制相关性矩阵的热力图,矩阵只是数值型import seaborn as snscorrmat = data_train.corr() ##corrmat是相关性矩阵f, ax = plt.subplots(figsize=(20, 9))##绘制画布sns.heatmap(corrmat, vmax=0.8, square=True) ##得到各特征图的热...原创 2019-11-18 20:01:01 · 8432 阅读 · 2 评论 -
pandas对数据处理的初级基本操作
对于数据处理的基本操作使用,自己使用总结。首先导入模块库import pandas as pdimport numpy as npfrom pandas import Series,DataFrame读取csv文件data_train=pd.read_csv("/home/mocas/kaggle/titanic/train.csv",index_col=0) ##乘客数据...原创 2019-11-16 18:54:54 · 3699 阅读 · 0 评论 -
numpy库数组属性查看:类型、尺寸、形状、维度
import numpy as np a1 = np.array([1,2,3,4],dtype=np.complex128) print(a1) print("数据类型",type(a1)) #打印数组数据类型 print("数组元素数据类型:",a1.dtype) #打印数组元素数据类型 print("数组元素总数:",a1.size) #...转载 2019-11-12 19:43:19 · 3375 阅读 · 0 评论