
数据分析
liweiwei1419
简单、诚实。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
seaborn 的 countplot 计数直方图,可以分类别显示(通过 hue 参数指定)
显示中文:from matplotlib.font_manager import FontPropertiesfont = FontProperties(fname='/Library/Fonts/Kaiti.ttc', size=20)countplot 显示计数直方图使用 subplots 绘制多个子图f, [ax1, ax2, ax3] = plt.subplots(1, 3...原创 2018-10-09 14:57:49 · 18625 阅读 · 0 评论 -
数据特征选定
数据特征选定目的:最大限度地从原始数据中提取出合适的特征。单变量特征选定统计分析可以用来分析和选择对结果影响最大的数据特征;可以选用一系列统计方法来选定数据特征;卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,偏离程度决定了卡方值的大小;卡方值越大,越不符合卡方值越小,偏差越小,越趋于符合;若两个值完全相等,卡方值就为 0,表示理论值完全符合。# 通过卡方检验选定...原创 2018-10-19 16:39:08 · 615 阅读 · 0 评论 -
数据预处理的四种方式
数据预处理调整数据尺寸让所有的属性按照相同的尺度来度量数据;梯度下降算法神经网络SVM回归算法K 近邻算法# 调整数据尺度(0..)import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler# 导入数据filename = 'pima_data.csv'na...原创 2018-10-19 14:22:15 · 11148 阅读 · 0 评论 -
使用 seaborn 绘图的参考资料
1、【Kaggle入门级竞赛top5%排名经验分享】— 分析篇https://zhuanlan.zhihu.com/p/403603802、数据可视化Seaborn从零开始学习教程(一) 风格选择https://zhuanlan.zhihu.com/p/36994775数据可视化Seaborn从零开始学习教程(二) 颜色调控篇https://zhuanlan.zhihu.com/p/37...原创 2018-10-10 14:17:47 · 524 阅读 · 0 评论 -
使用 seaborn 的 FacetGrid 绘图的方法
FacetGrid 是一个绘制多个图表(以网格形式显示)的接口。步骤:1、实例化对象2、map,映射到具体的 seaborn 图表类型3、添加图例示例代码:col='Pclass' 表示从列的方向上看,是 Pclass 字段。# 在不同社会等级下,男性和女性在不同登陆港口下的数量对比grid = sns.FacetGrid(data_all, col='Pclass', hue...原创 2018-10-10 13:38:32 · 9298 阅读 · 8 评论 -
Matplotlib 显示中文
以下是我在网上查阅的一些方法,最后尝试通过了。在这里做个备份,供大家参考。方法1:在加入以下代码片段。import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['STHeiti'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号...原创 2018-10-10 11:43:53 · 49440 阅读 · 9 评论 -
简单的数据可视化
直方图(Histogram)又称质量分布图,可以直观地展示每个属性的分布情况;一般用横轴表示数据类型,纵轴表示分布情况;可以很直观看到数据是高斯分布、指数分布还是偏态分布。下面使用 Pandas 的 DataFrame 对象的 hist() 方法就可以直接得到直方图。import pandas as pdimport matplotlib.pyplot as pltfilena...原创 2018-10-19 13:19:51 · 1046 阅读 · 0 评论 -
使用 Pandas 查看数据
简单查看数据dataframe.head()数据的维度dataframe.shape 属性数据的属性和类型dataframe.dtypes 属性统计性描述dataframe.describe()数据分组分布print(data.groupby('class').size())数据属性的相关性设置数据的精度import pandas as pd# 显示数据的...原创 2018-10-19 13:02:46 · 7874 阅读 · 1 评论 -
数据导入的几种方法
Pima Indians 数据集从 UCI 中获取的,这是一个分类问题的数据集,主要记录了印第安人最近五年内是否患糖尿病的医疗数据。(数据集文件见最后。)使用标准 Python 类库导入数据import csvimport numpy as npfilename = 'pima_data.csv'with open(filename, 'rt') as raw_data: ...原创 2018-10-19 12:36:07 · 4863 阅读 · 0 评论 -
seaborn 的 barplot 条形图的用法
barplot 可以将一些统计函数的结果显示在图标上。estimator 指定分组汇总的方式,传入一个函数的引用就可以了,默认是取平均值。%matplotlib inlineimport pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltsns.set_style...原创 2018-10-09 16:13:43 · 21377 阅读 · 1 评论 -
白话“卡方检验”
什么是卡方检验卡方检验是假设检验的一种,用于分析两个类别变量的相关关系,是一种非参数假设检验,得出的结论无非就是相关或者不相关,所以有的教材上又叫“独立性检验”,所以如果不是很清楚假设检验的朋友们,要好好复习一下假设检验了。提起假设检验,会扯出一堆东西,这里我简单为大家梳理一下。什么是“类别变量”?类别变量就是取值为离散值的变量,“性别”就是一个类别变量,它的取值只有“男”和“女”,类似还有...原创 2018-11-11 14:41:10 · 3175 阅读 · 0 评论