
Python数据分析
文章平均质量分 57
@u@
这个作者很懒,什么都没留下…
展开
-
成功解决 ValueError: Shape of passed values is (3, 1), indices imply (3, 3)
被这个问题影响太久了,今天一定要记录一下!说到底,是自己学的不扎实,基本概念不牢靠,很多东西只知道用。import pandas as pdprint(pd.DataFrame([1,2]))print('------------------')print(pd.DataFrame([[1,2]]))运行结果如下:可以看到,当是 [1,2]时,是一个列表,只有一维,相当于是:print(pd.DataFrame([[1],[2]]))当是 [[1,2]]时,有两个括号,算是二维:p原创 2021-03-13 19:06:43 · 6016 阅读 · 1 评论 -
Python的format用法
原创 2021-03-11 17:47:01 · 360 阅读 · 0 评论 -
Python基础语法(自用)
一、列表可以看作是数组列表的偏移量与切片列表增删元素append:不能用append(4,5),append([4,5])相当于是添加了一个列表(嵌套),(添加的元素类型无限制)extend:extend需要传入iterable,不能单单一个数字,可以用range(5)(从0到4),也可以用[4,5]代表4到5。del:pop:pop会删除后返回被删除的值,del直接进行删除元组与列表元组与列表类似,但元组的元素不能修改。元组使用小括号,而列表使用方括号。tup原创 2021-03-05 15:16:33 · 988 阅读 · 2 评论 -
Python列表、Numpy数组与矩阵的区别
Python列表和Numpy数组的区别:Numpy使用ndarray对象来处理多维数组,该对象是一个快速而灵活的大数据容器。使用Python列表可以存储一维数组,通过列表的嵌套可以实现多维数组,那么为什么还需要使用Numpy呢?Numpy是专门针对数组的操作和运算进行了设计,所以数组的存储效率和输入输出性能远优于Python中的嵌套列表,数组越大,Numpy的优势就越明显。通常Numpy数组中的所有元素的类型都是相同的,而Python列表中的元素类型是任意的,所以在通用性能方面Numpy数组不及Pytho原创 2021-01-29 21:05:36 · 386 阅读 · 0 评论 -
np.arange()用法
np.arange()函数返回一个有终点和起点的固定步长的排列,如[1,2,3,4,5],起点是1,终点是6,步长为1。参数个数情况: np.arange()函数分为一个参数,两个参数,三个参数三种情况1)一个参数时,参数值为终点,起点取默认值0,步长取默认值1。2)两个参数时,第一个参数为起点,第二个参数为终点,步长取默认值1。3)三个参数时,第一个参数为起点,第二个参数为终点,第三个参数为步长。其中步长支持小数#一个参数 默认起点0,步长为1 输出:[0 1 2]a = np.arange原创 2021-01-29 20:11:01 · 4839 阅读 · 0 评论 -
np.insert的用法(插入数据)
np.insert(arr, obj, values, axis)#arr原始数组,可一可多,obj插入元素位置,values是插入内容,axis是按行按列插入(0:行、1:列)。import numpy as np# 如果axis没有给出,相当于是做降维操作,与一维数组一致a = np.array([1,4,6,5,6,8])np.insert(a,0,9)# 输出array([9, 1, 4, 6, 5, 6, 8])#插入元素都是在所给位置之前a = np.array([[1,2原创 2021-01-29 19:33:48 · 20343 阅读 · 0 评论 -
data[:,0] data[1,:]的含义
data[ a , b ] a的位置限制第几行,b的位置限制第几列“ : ”表示全部数据(分成逗号的左边和逗号的右边)例如:data[:,0]表示第1列所有数据data[1,:]表示第2行所有数据data[:, 1:]表示从第2列开始所有数据data = [[1,2,6], [3,4,7]]data = np.array(data)print(data[:,0])print(data[:,1])print(data[:,2])print(data[1,:])pr原创 2021-01-29 11:38:46 · 9909 阅读 · 0 评论 -
详解将Pandas中的DataFrame类型转换成Numpy中array类型的三种方法
import numpy as npimport pandas as pddf=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]})原创 2021-01-29 11:27:53 · 1065 阅读 · 0 评论 -
pandas.read_csv易错用法
data=pd.read_csv(r'B:\电子书\机器学习实战+源码\machinelearninginaction\Ch02\datingTestSet.txt', sep='\t',names=['Flymiles','Videogames','Icecream','labels'])文件路径前面一定要加个r,否则后面的反斜杠会被当成转义字符,加r代表后面是一个整体字符串不用python处理sep分隔符:默认情况为逗号,如果不同的话要进行设置names:给每原创 2021-01-22 22:00:10 · 452 阅读 · 0 评论 -
plt.scatter()总结
函数的原型:matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, *, data=None, **kwargs)参数的解释:s——点的大小(可以是一个一维数组,变化着的)c——点的颜色(可以是一个一维数组,变化着的)'ali原创 2021-01-21 21:26:44 · 2411 阅读 · 3 评论 -
利用Python进行数据分析学习笔记六:数据清洗和准备
一、处理缺失数据在许多数据分析⼯作中,缺失数据是经常发⽣的。pandas的⽬标之⼀就是尽量轻松地处理缺失数据。例如,pandas对象的所有描述性统计默认都不包括缺失数据。缺失数据在pandas中呈现的⽅式有些不完美,但对于⼤多数⽤户可以保证功能正常。对于数值数据,pandas使⽤浮点值NaN(Not a Number)表示缺失数据。我们称其为哨兵值,可以⽅便的检测出来:In [10]: string_data = pd.Series(['aardvark', 'artichoke', np.na.原创 2021-01-20 15:36:23 · 5255 阅读 · 0 评论 -
利用Python进行数据分析学习笔记五:数据加载、存储与文件格式
访问数据是使⽤本书所介绍的这些⼯具的第⼀步。我会着重介绍pandas的数据输⼊与输出,虽然别的库中也有不少以此为⽬的的⼯具。输⼊输出通常可以划分为⼏个⼤类:读取⽂本⽂件和其他更⾼效的磁盘存储格式,加载数据库中的数据,利⽤Web API操作⽹络资源。一、读写文本格式的数据pandas提供了⼀些⽤于将表格型数据读取为DataFrame对象的函数。表6-1对它们进⾏了总结,其中read_csv和read_table可能会是你今后⽤得最多的。我将⼤致介绍⼀下这些函数在将⽂本数据转换为DataFrame时所原创 2021-01-20 14:32:25 · 1021 阅读 · 0 评论 -
SyntaxError: (unicode error) ‘unicodeescape‘ codec can‘t decode bytes in position 2-3: truncated \UX
原因分析: 在windows系统当中读取文件路径可以使用,但是在python字符串中\有转义的含义,如\t可代表TAB,\n代表换行,所以我们需要采取一些方式使得\不被解读为转义字符。目前有3个解决方案:...原创 2021-01-20 12:50:33 · 163 阅读 · 0 评论 -
利用Python进行数据分析学习笔记四:pandas入门
一、pandas的数据结构介绍要使⽤pandas,你⾸先就得熟悉它的两个主要数据结构:Series和DataFrame。虽然它们并不能解决所有问题,但它们为⼤多数应⽤提供了⼀种可靠的、易于使⽤的基础。1、SeriesSeries是⼀种类似于⼀维数组的对象,它由⼀组数据(各种NumPy数据类型)以及⼀组与之相关的数据标签(即索引)组成。仅由⼀组数据即可产⽣最简单的Series:In [11]: obj = pd.Series([4, 7, -5, 3])In [12]: objOut[12]..原创 2021-01-20 12:28:17 · 3071 阅读 · 0 评论 -
利用Python进行数据分析学习笔记三:NumPy基础:数组和矢量计算
一、Numpy基础NumPy之于数值计算特别重要的原因之⼀,是因为它可以⾼效处理⼤数组的数据。这是因为:NumPy是在⼀个连续的内存块中存储数据,独⽴于其他Python内置对象。NumPy的C语⾔编写的算法库可以操作内存,⽽不必进⾏类型检查或其它前期⼯作。⽐起Python的内置序列,NumPy数组使⽤的内存更少。NumPy可以在整个数组上执⾏复杂的计算,⽽不需要Python的for循环。要搞明⽩具体的性能差距,考察⼀个包含⼀百万整数的数组,和⼀个等价的Python列表:In [7]: import原创 2021-01-19 21:26:06 · 1552 阅读 · 0 评论 -
利用Python进行数据分析学习笔记二:Python的数据结构、函数和文件
本章讨论Python的内置功能,这些功能本书会⽤到很多。虽然扩展库,⽐如pandas和Numpy,使处理⼤数据集很⽅便,但它们是和Python的内置数据处理⼯具⼀同使⽤的。我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你⾃⼰的、可重复使⽤的Python函数。最后,会学习Python的⽂件对象,以及如何与本地硬盘交互。一、数据结构和序列1、元组()(元组本身是不可变的,但当元组存储的对象是可变对象,那就可以对其中的可变对象进行修改)2、拆分元组3、tu原创 2021-01-19 14:11:55 · 496 阅读 · 0 评论 -
利用Python进行数据分析学习笔记一:准备工作、Python语法基础
一、准备工作1、代码示例各章的示例数据:数据获取2、引入惯例引⼊惯例Python社区已经⼴泛采取了⼀些常⽤模块的命名惯例:import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsimport statsmodels as sm也就是说,当你看到np.arange时,就应该想到它引⽤的是NumPy中的arange函数。这样做的原因是:在Python软件开发过程中,原创 2021-01-18 17:38:51 · 249 阅读 · 0 评论