
数据分析
YPL_ZML
这个作者很懒,什么都没留下…
展开
-
数据分析numpy ndarry属性 与 常用指标
import numpy as np# ndarry属性# ndim shape size itemsize dtype# 先去创建一个ndarry --借用列表去创建一个arryarr = np.array([1,2,3,4,5,6])print("arr:", arr)print("arr 维度:", arr.ndim)print("arr: 形状", arr.shape)...原创 2019-06-21 21:01:33 · 634 阅读 · 0 评论 -
numpy 直方图绘制(参考)
import matplotlib.pyplot as pltimport numpy as npimport math# 薪水情况salary = [3500, 4200, 8000, 13000, 13000, 2000, 3000, 4300, 3500, 25000, 30000, 2300, 4000, 6000]# 统计薪水人数最多的一个区间# 统计薪水落在各个区间的...原创 2019-06-23 21:13:44 · 3742 阅读 · 0 评论 -
numpy 箱线图绘制(参考)
import matplotlib.pyplot as pltimport numpy as np# 想用中文必须进行设置RC参数plt.rcParams['font.sans-serif'] = 'SimHei'# 设置RC参数字体,让其支持中文plt.rcParams['axes.unicode_minus'] = False# 加载数据data = np.load('国民经...原创 2019-06-23 21:14:43 · 1156 阅读 · 0 评论 -
pandas 控制检测与处理
import pandas as pdimport numpy as np# 缺失值检测# 加载数据# data = pd.read_excel('qs.xlsx')# print(data)# 利用isnull进行空值判断 -->返回bool df ,如果为True, 就是空值,如果为False,就是真实值# print(data.isnull())# 与sum连用,统...原创 2019-06-26 22:51:15 · 326 阅读 · 0 评论 -
等频法
import pandas as pdimport numpy as np# 加载数据data = pd.read_csv('loan.csv', encoding='gbk')# print(data)# print(data.columns)# 0 代表 信用好用户# 1 代表 信用差用户# 月收入 和 好坏用户 关系# 检测缺失值# res = data.is...原创 2019-06-26 22:56:23 · 826 阅读 · 0 评论 -
TfidfVectorizer统计词频
from sklearn.feature_extraction.text import TfidfVectorizerimport jieba# text = ['This is the first document.', 'This is the second second document.', 'And the third one.',# 'Is this the f...原创 2019-06-27 20:08:54 · 1708 阅读 · 0 评论 -
线性逻辑回归以及稳健性测试
import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model.logistic import LogisticRegressionfrom sklearn.preprocessing import StandardScale...原创 2019-06-27 20:10:51 · 1746 阅读 · 0 评论 -
pandas 属性介绍
import pandas as pdimport numpy as np# pandas 数据分析的库---用于数据处理、数据清洗、获取保存文件、统计分析'''结构:series --一维结构dataframe --二维结构panel -- 三维结构'''# numpy 数据分析库 ---主要用于科学计算# ndarray 进行数据存储、进行计算# 加载数据data ...原创 2019-06-24 23:10:03 · 435 阅读 · 0 评论 -
pandas文件读取
import pandas as pd# numpy 读取数据 --主要用于科学计算# 文本文件、 二进制文件# pandas 可读取文件# 文本文件# 编码方式 ---数据里面存在中文,存储的时候是哪种编码格式,解码就用哪种格式# windows 平台常用gbk# linux 平台常用utf-8# 参数1 文件路径 + 名称# 参数2 分隔符# 参数3 编码方式# me...原创 2019-06-24 23:11:59 · 341 阅读 · 0 评论 -
pandas 读取文件内容dataframe方法
import pandas as pd# 获取数据detail = pd.read_excel('meal_order_detail.xlsx', sep=',')# print(detail)# print(detail.index)# print(detail.columns)# 获取某一列数据 -- 获取菜品名称# print(detail['dishes_name'])...原创 2019-06-24 23:13:28 · 2944 阅读 · 0 评论 -
pandas 修改数据
import pandas as pdimport numpy as np# 加载数据data = pd.read_excel('users.xlsx')# print(data)# print(type(data))# print(data.columns)# 先确定数据,再进行更改# bool类型数组再切片中的应用# arr = np.array([1,0])# p...原创 2019-06-24 23:14:22 · 1091 阅读 · 0 评论 -
pandas删除数据操作(空行,去重)
import pandas as pd# 加载数据users = pd.read_excel('users.xlsx')# print(users)# 删除数据用drop# labels 指定删除的列或者行名称# axis = 0 删除行# axis = 1 删除列# inplace = True 替换原来数据data = users.drop(labels=['age',...原创 2019-06-24 23:17:25 · 8615 阅读 · 1 评论 -
pandas时间处理
# pandas 默认支持的时间点的类型为:timestamp# 默认支持的时间序列类型为DatetimeIndex# numpy 默认支持时间类型 datatime64[ns]# pandas 是封装了numpyimport pandas as pd# 加载数据detail = pd.read_excel('meal_order_detail.xlsx')# prin...原创 2019-06-24 23:18:03 · 322 阅读 · 0 评论 -
pandas分组与聚合
import pandas as pdimport numpy as np# 加载数据detail = pd.read_excel('meal_order_detail.xlsx')# print(detail)# 分组# 按照amounts进行分组,然后统计counts平均值# de = detail.groupby(by='amounts')['counts'].mean(...原创 2019-06-24 23:18:41 · 182 阅读 · 0 评论 -
pandas透视表
import pandas as pdimport numpy as np# 加载数据detail = pd.read_excel('meal_order_detail.xlsx')# print(detail)columns = detail.columns# print(columns)data = detail[['order_id', 'dishes_id', 'di...原创 2019-06-24 23:19:19 · 182 阅读 · 0 评论 -
pandas交叉表
import pandas as pdimport numpy as np# 加载数据detail = pd.read_excel('meal_order_detail.xlsx')# print(detail)columns = detail.columns# print(columns)# 建立交叉表# 必须指定index, columns, values, aggf...原创 2019-06-24 23:19:54 · 461 阅读 · 0 评论 -
pandas相似度计算
import pandas as pd# 加载数据detail = pd.read_excel('meal_order_detail.xlsx')# 展示detail# print(detail)# 求取相似度# res = detail[['amounts', 'counts']].corr()# res = detail[['amounts', 'counts']].co...原创 2019-06-24 23:20:27 · 5119 阅读 · 0 评论 -
numpy 饼图的绘制(参考)
import matplotlib.pyplot as pltimport numpy as np# 想用中文必须进行设置RC参数plt.rcParams['font.sans-serif'] = 'SimHei'# 设置RC参数字体,让其支持中文plt.rcParams['axes.unicode_minus'] = False# 加载数据data = np.load('国民...原创 2019-06-23 21:12:54 · 1134 阅读 · 0 评论 -
numpy 柱状图绘制(参考)
# 柱状图# 横坐标类别# 纵坐标为该类别所对应的数量# 用于比较各个类别之间的数量--用于少量数据比较# 需要类别数目 各个类别数量# 直方图# 条状结构# 横坐标是数据分组情况# 纵坐标是各个组的数量# 一般用于大量数据# 只需要大量数据 进行分组# 身高数据# 绘制柱状图import matplotlib.pyplot as plt# 想用中文必须进行设...原创 2019-06-23 21:12:13 · 1842 阅读 · 0 评论 -
数组的创建
# 参数1 开始, 包含# 参数2 结束, 不包含# 参数3 步长# arr = np.arange(1, 10, 2)# print("arr:", arr)# print("arr 维度:", arr.ndim)# print("arr: 形状", arr.shape)# print("arr: 大小", arr.size)# print("arr:数据类型", arr.dt...原创 2019-06-21 22:01:03 · 243 阅读 · 0 评论 -
numpy 数组索引用法
import numpy as np# 数组索引# 创建一个数组arr = np.arange(10)# print(arr)# # 取5# print(arr[5])# # 取5, 6, 7# print(arr[5: 8])# print(arr[7: 4: -1])# print(arr[-3: -6: -1])# 创建二维数组# arr = np.array(...原创 2019-06-21 22:05:04 · 310 阅读 · 0 评论 -
数组形态改变
import numpy as np# 创建一个数组# arr = np.arange(16)# print("arr:", arr)# print("shape:", arr.shape)# print(type(arr))# 直接更改 通过shape直接指定形状 --元祖# arr.shape=(4,4)# print("arr:", arr)# print("shap...原创 2019-06-21 22:06:11 · 225 阅读 · 0 评论 -
numpy 数组拼接组合
import numpy as np# 创建数组arr1 = np.arange(6).reshape(2,3)arr2 = np.array([[1, 2, 3], [2, 3, 4]])# 横向拼接# arr3 = np.hstack((arr1, arr2))arr5 = np.concatenate((arr1, arr2),axis=1)# print(arr3)#...原创 2019-06-21 22:07:03 · 363 阅读 · 0 评论 -
numpy 数组拆分
import numpy as np# 创建数组arr = np.arange(16).reshape(4,4)# print(arr)# 横向拆分# arr1 = np.hsplit(arr, 4)# print(arr1)arr2 = np.split(arr, 4, axis=1)# print(arr2)# 纵向拆分arr3 = np.vsplit(arr , ...原创 2019-06-21 22:07:45 · 741 阅读 · 0 评论 -
numpy 创建矩阵、组合矩阵
import numpy as np# 创建矩阵m1 = np.mat("1 2 3;1 3 4;1 4 5")# print(m1)# print(type(m1))m2 = np.mat([[2, 2, 3],[2, 3, 4],[2, 4, 5]])# print(m2)# print(type(m2))# print(m2.ndim)# matrix 是复制,浪费...原创 2019-06-21 22:08:43 · 1734 阅读 · 0 评论 -
numpy矩阵运算
import numpy as np# 创建矩阵m1 = np.mat([[1, 2, 3], [2, 3, 4]])# print(m1)# 矩阵与数相乘m2 = m1*3# print(m2)# 矩阵的相加减# 矩阵相加 --对应位置元素相加m3 = np.mat([[1, 0, 1], [1, 0, 1]]).reshape(3,2)print(m3)m4 =...原创 2019-06-21 22:09:21 · 740 阅读 · 0 评论 -
numpy 数组运算
import numpy as np# 创建数组arr1 = np.arange(4).reshape(2, 2)print(arr1)arr2 = np.array([[1, 1], [1, 2]])print(arr2)# 加法 --对应位置元素相加arr_new = arr1+arr2# print(arr_new)# 减法相减arr_new1 = arr1-ar...原创 2019-06-21 22:10:02 · 1035 阅读 · 0 评论 -
numpy广播机制
import numpy as np# 创建数组arr1 = np.array([[0, 0, 0, 0], [1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]])# print(arr1)# print(arr1.shape)arr2 = np.array([1, 2, 3, 4])# print(arr2)# print(arr2.shape)...原创 2019-06-21 22:11:34 · 292 阅读 · 0 评论 -
pandas数据拼接
import pandas as pd# 加载数据detail1 = pd.read_excel('meal_order_detail.xlsx', sheet_name=0)# detail2 = pd.read_excel('meal_order_detail.xlsx', sheet_name=1)# detail3 = pd.read_excel('meal_order_det...原创 2019-06-26 17:04:32 · 500 阅读 · 0 评论 -
最全中文停用词表整理(1893个)
!"$%&’()*+,–.…………./.一.数.日///0123456789:转载 2019-06-26 17:29:48 · 890 阅读 · 0 评论 -
numpy 读写文件(参考)
import numpy as np# 以二进制进行保存数组arr1 = np.arange(16).reshape(4, 4)arr2 = np.array([1, 2, 3, 4])arr3 = np.random.rand(3, 2)# print(arr3)# 保存单个数组# 参数1 保存的文件名称# 保存的文件类型为.npy结尾的文件,# 保存的时候可以省略后缀#...原创 2019-06-23 21:05:37 · 1055 阅读 · 0 评论 -
numpy 数组排序(参考)
import numpy as np# 创建数组# arr = np.arange(16, 0, -1)# print(arr)# arr.sort()# print(arr)# 创建二位数组# arr = np.arange(16, 0,-1).reshape(4, 4)# print(arr)# axis=1按照横向进行排序,axis=0按照纵向进行排序# arr.s...原创 2019-06-23 21:06:33 · 740 阅读 · 0 评论 -
数组重复与去重
import numpy as np# 创建一个数组arr = np.array(['小花','小明','小王','小芳','小可爱','小花','小王','小可爱'])# arr = ['a','z','d','l']# print(arr)# 去重+排序arr_new = np.unique(arr)print(arr_new)'''['小可爱' '小明' '小王' ...原创 2019-06-23 21:07:17 · 330 阅读 · 0 评论 -
numpy 折线图绘制(参考)
import matplotlib.pyplot as pltimport numpy as np# # 创建画布# plt.figure()## # 想用中文必须进行设置RC参数# plt.rcParams['font.sans-serif'] = 'SimHei'# # 设置RC参数字体,让其支持中文# plt.rcParams['axes.unicode_minus'] ...原创 2019-06-23 21:09:29 · 4631 阅读 · 0 评论 -
numpy 散点图绘制(参考)
import matplotlib.pyplot as pltimport numpy as np# 加载数据data = np.load('国民经济核算季度数据.npz', allow_pickle=True)columns = data['columns']values = data['values']# 创建画布plt.figure()# 想用中文必须进行设置RC参数...原创 2019-06-23 21:10:35 · 2933 阅读 · 0 评论 -
pandas数据组合
import pandas as pd# 加载数据d1 = pd.read_excel('数据组合1.xlsx')d2 = pd.read_excel('数据组合2.xlsx')# print(d1)# print(d2)# 内连接 inner 外连接 outer# d3 = pd.concat([d1, d2], join='inner', axis=1)# d4 = pd...原创 2019-06-24 23:21:17 · 286 阅读 · 0 评论