
Pandas
文章平均质量分 80
整理了pandas,numpy等Python数据分析扩展库的使用和案例分析
清平乐的技术博客
学如逆水行舟,不进则退。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pandas常用方法笔记汇总
数据分析常用方法和函数【np】np.array()type()data.dtypedata.shapedata.reshape(())np.ones(shape, dtype=None, order=‘C’)np.ones((10,30,450),dtype = “float”)np.zeros(shape, dtype=float, order=‘C’)np.zeros((1...原创 2020-04-09 13:40:30 · 1248 阅读 · 0 评论 -
AttributeError: module 'pandas' has no attribute 'Series'的解决办法
pandas是我们进行数据处理和分析时最常用的包之一,但是有时候出现AttributeError: module ‘pandas’ has no attribute 'Series’这样的错误,在网上看了好多各种各样的解决办法,但是其实真正的错误主要是两个方面:(1)包没有安装成功;(2)自己的文件名命名有问题针对第一个问题我们是可以检测的,直接在python命令行中进行测试Series属...原创 2018-11-06 17:27:46 · 7188 阅读 · 1 评论 -
Pandas学习笔记01
Pandas学习笔记01一、简介1.基本概念pandas 是Python Data Analysis Library 的简称, pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具pandas提供了大量能使我们快速处理数据的函数和方法它使Python成为强大而高效的数据分...原创 2019-12-03 17:46:31 · 262 阅读 · 0 评论 -
numpy.random.randn()与rand()、random.random()的区别
一、random.randn()和random.rand()numpy中有一些常用的用来产生随机数的函数。randn()和rand()就属于其中一种numpy.random.randn(d0,d1,…,dn)是从标准正态分布中返回一个或多个样本值。numpy.random.rand(d0,d1,…,dn) 的随机样本位于[0,1) 中两个函数中两个参数是代表生成的矩阵的维度举例impo...原创 2018-12-15 11:31:24 · 7887 阅读 · 0 评论 -
修改Jupyter Notebook默认打开目录
Jupyter启动之后默认打开的是C盘目录,一般临时使用可以将文件建在桌面Desktop想要打开其他盘符的文件无法实现,如D、E、F盘目录下的文件。现有解决办法如下,无需修改Jupyter Notebook的默认打开路径。思路:进入CMD模式 win + R 切换盘符 目标盘+:进入文件...原创 2018-12-11 17:48:13 · 1582 阅读 · 0 评论 -
Python数据分析常用的8款工具
Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性。Python可用于数据分析,但其单纯依赖Python本身自带的库进行数据分析还是具有一定的局限性的,需要安装第三方扩展库来增强分析和挖掘能力。Python数据分析需要安装的第三方扩展库有:Numpy、Pandas、SciPy、Matplotlib、Scikit-Lea...原创 2018-11-09 15:22:25 · 3002 阅读 · 0 评论 -
Jupyter 和 ipython的区别
问:jupyter 和 ipython有何区别答:Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言,其本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。注1:安装输入:sudo apt ins...原创 2018-11-06 17:32:30 · 11910 阅读 · 0 评论 -
python数据分析12_matplotlib绘图和可视化
python数据分析07–matplotlib绘图和可视化一、简介 信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。 matplotlib是一个用于创建出版质量量图表的桌面绘图包(主要是2D方面)。matplotlib支持各种操作系统...原创 2018-12-08 14:57:27 · 844 阅读 · 1 评论 -
解决matplotlib中文标签乱码问题
原创 2018-12-11 11:26:01 · 413 阅读 · 0 评论 -
数据分析13_matplotlib绘图和可视化
一、简介 信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。 matplotlib是一个用于创建出版质量量图表的桌面绘图包(主要是2D方面)。matplotlib支持各种操作系统上许多不不同的GUI后端,⽽而且还能将图片导出为各种常见的矢...原创 2020-01-12 14:52:26 · 702 阅读 · 0 评论 -
数据分析12_matplotlib绘图
1.基础知识导包import numpy as npimport matplotlib.pyplot as plt%matplotlib inline常用命令plt.imread()plt.imshow()包使用CV2进行人脸更换pip install opencv-pythonimport cv2data = cv2.CascadeClassifier()#加载...原创 2020-01-12 14:49:25 · 420 阅读 · 0 评论 -
数据分析11_scipy
scipy.fftpack模块用来计算快速傅里叶变换速度比传统傅里叶变换更快,是对之前算法的改进图片是二维数据,注意使用fftpack的二维转变方法import scipy as spfrom scipy import fftpack#专门处理傅里叶变换包1.数值积分,求解圆周率求解圆周率 integrate 对函数(1 - x2)0.5进行积分2.Scipy文件输入/输出随机...原创 2020-01-12 14:42:08 · 319 阅读 · 0 评论 -
python数据分析09_pandas数据聚合与分组运算
python数据分析08——pandas数据聚合与分组运算在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表, pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。一、GroupBy机制分组运算"split-apply-combine"(拆分-应用-合并)。第一个阶段,pandas对象(无论是Series、Dat...原创 2018-12-08 15:41:28 · 761 阅读 · 1 评论 -
python数据分析10_Pandas数据清洗、转换和面元划分
在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理理、转换以及重塑。这些工作会占到分析师时间的80%或更更多。pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具,可以让你轻松地将数据规整为想要的格式。###一、处理缺失数据1.检测缺失数据In [10]: string_data = pd.Series(['aardvark', 'artichoke...原创 2018-11-08 18:33:24 · 782 阅读 · 0 评论 -
python数据分析08_Pandas数据归整:聚合和重塑
在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不不利利于分析,应采用聚合、合并、重塑数据的方法进行处理。一、层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。In [9]: data = pd.Series(np.random.randn(9),...: index=[['a',...原创 2018-11-09 17:37:39 · 654 阅读 · 0 评论 -
数据分析07_pandas绘图函数
1.简单图简单的Series图表示例,plot()简单的DataFrame图表示例,plot()2.柱状图Series柱状图示例,kind = 'bar'/'barh'3.直方图方图是特殊形状的柱状图#表示数据分布的情况#又叫密度图#s.plot(kind = “hist”)#normed归一化处理s.hist(grid = False, bins = 20, normed...原创 2020-01-12 14:38:40 · 269 阅读 · 0 评论 -
数据分析06_pandas数据处理
【pandas05_数据处理】1、删除重复元素使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True使用drop_duplicates()函数删除重复的行2. 映射映射的含义:创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定需要使用字典:map = { 'label1...原创 2020-01-12 13:50:39 · 323 阅读 · 0 评论 -
数据分析05_pandas拼接
【pandas04_拼接】两种拼接:级联pd.concat, pd.append合并pd.merge, pd.join0.回顾np级联1. 使用pd.concat()级联pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数:pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignor...原创 2020-01-12 13:49:01 · 256 阅读 · 0 评论 -
数据分析04_Pandas层次化索引
1.多层行索引隐式构造常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组s = Series(data = [1,2,3,“a”], index = [[“a”,“a”,“b”,“b”],[“期中”,“期末”,“期中”,“期末”]])显示构造pd.MultiIndexa.使用数组b.使用tuplec.使用product(最简单推荐使用)2.多层列索引...原创 2020-01-12 13:46:43 · 495 阅读 · 0 评论 -
数据分析03_Pandas处理缺失值
有两种丢失数据:Nonenp.nan(NaN)1.numpy中的(1).NoneNone是Python自带的,其类型为python object。因此,None不能参与到任何计算中。object类型的运算要比int类型的运算慢得多计算不同数据类型求和时间%timeit np.arange(1e5,dtype=xxx).sum()(2).np.nan(NaN)np.nan是浮点...原创 2020-01-12 13:44:47 · 277 阅读 · 0 评论 -
数据分析02_Pandas数据结构
导包三剑客import numpy as npimport pandas as pdfrom pandas import Series,DataFrame由ndarray创建的是引用,而不是副本。对Series元素的改变也会改变原来的ndarray对象中的元素。(列表没有这种情况)1.Series创建(1)列表创建Series(value,index)nd = np.array...原创 2020-01-12 13:43:19 · 208 阅读 · 0 评论 -
数据分析01_NumPy常用操作
去年陆续写了pandas的数据清洗的几篇博文,想将python数据分析的完整的笔记整理并发布,因为项目忙一直没时间整理剩余笔记,现在利用年前这段时间将数据分析系列补充完整,这几天会陆续将numpy,scipy和pandas没有完善的整理好,2020新一年共同加油!之前几篇有兴趣可以回顾一下《Python数据分析05_Pandas数据清洗、转换和面元划分》《Python数据分析06_Panda...原创 2020-01-11 15:31:23 · 297 阅读 · 0 评论