
数据分析笔记
文章平均质量分 76
数据分析入门,仅供本人学习,无商业
TryBest_
与bug奋战到底!又不懂的问题的可以私信我噢,有问必答!
展开
-
Q3.Numpy_统计分析-排序、去重和重复、搜索和计数函数
Part_1 排序函数numpy排序方式主要分为直接排序和间接排序两种。直接排序是指对数值直接进行排序;间接排序是指根据一个或多个键对数据集进行排序。在numpy中:直接排序常用sort()函数,间接排序常用argsort()函数和lexsort()函数1.sort()函数:用于返回输入数组的排序副本格式:numpy.sort(arr[,axis,kind,order])参数解读:arr:输入数组axis:指定沿着某个轴排序数组,axis=0表示按列排序,axis=1表示按行序。默认ax原创 2022-04-16 17:21:19 · 1655 阅读 · 0 评论 -
Q2.Numpy_常用统计函数
1.求最大值和最小值的函数:最大值:amax(),nanmax(),最小值:amin(),nanmin()amax()和amin()函数用于返回一个数组的最大值和最小值或者是沿轴返回数组的最大值和最小值nanmax()和nanmin()函数用于返回忽略任何NaN的数组的最大值和最小值或者是沿轴返回忽略任何NaN的数组的最大值和最小值。如果数组全是NaN切片,将会出现警告并返回NaN切片:NaN:not a number格式:numpy.amax(a,[axis=None[,out=Non原创 2022-04-16 17:20:33 · 1331 阅读 · 0 评论 -
Q1.Numpy_数组、数组查询、转置和轴对换、读写文件
安装地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/numpy,matplotlib都是在这里下载import numpy as npPart_1:Numpy数组,数组查询及转置和轴对换1.1 创建各种类型的数组arr1=np.array([1,2,3,4])print('一维数组:\n',arr1)arr2=np.array([[1,2,3],[4,5,6]])print('二维数组:\n',arr2)arr3=np.array([[[原创 2022-04-16 17:19:47 · 633 阅读 · 0 评论 -
R4.Matplotlib_绘制直方图和柱状图
Part_1:直方图 hsit()函数格式:matplotlib.pyplot.hist(x,bins=None,range=None,density=None,weights=None,cumulatve=False,bottom=None,histtype=‘bar’,align=‘mid’,orientation=‘vertical’,rwidth=None,log=False,color=None,label=None,stacked=False,density = False,hold=No原创 2022-04-16 17:16:30 · 640 阅读 · 0 评论 -
R3.Matplotlib_绘制散点图和折线统计图
Part_1:散点图 scatter()pyplot中绘制散点图的函数为scatter格式:matplotlib.pyplot.scatter(x,y,s=None,c=None,marker=None,cmap=None,norm=None,vmin=None,vmax=None,alpha=None,linewidths=None,verts=None,edgecolors=None,hold=None,data=None,**kwargs)参数说明:x,y:接收array。表示x轴与y原创 2022-04-16 17:15:15 · 1393 阅读 · 0 评论 -
R2.Matplotlib_创建子图
1.subplot()函数在matplotlib中,可以将一个绘图对象分为几个绘图区域,在每个绘图区域中可以绘制不同的图像,这种绘图形式称为创建子图。可以使用subplot()函数格式:subplot(numRows,numCols,plotNum)函数说明:numRows:表示将整个绘图区域等分为numRows行numCols:表示将整个绘图区域等分为numCols列plotNum:表示当前选中要操作的区域subplot()函数的作用是将整个绘图区域等分为numRows(行) x numCo原创 2022-04-16 17:14:07 · 1203 阅读 · 0 评论 -
R1.Matplotlib_创建简单图形
1.导库导入快速绘图的函数库——pyplot子库格式:import matlotlib.pyplot as plt2.创建绘图对象——figure对象由于matplotlib的图像均位于绘图对象中,在绘图前,先要创建绘图对象。如果不创建就直接调用绘图plot函数,Matplotlib会自动创建一个绘图对象创建figure对象格式:plt.figure(num=None,figsize=None,dpi=None,facecolor=None,edgecolor=None,frameon=True原创 2022-04-16 17:11:58 · 603 阅读 · 0 评论 -
Python数据分析基础笔记(仅供本人学习记录)】E3.折线统计图案例
#示例:使用不同颜色、不同形状的点,绘制2007——2016年全国就业人员、城镇就业人员和乡村就业人员的折线图。其中#全国就业人员(万人)用红色的“-”圆圈形状的点来表示,城镇就业人员(万人)用绿色的“--”形状的点来表示,乡村就业人员#(万人)用蓝色的“-.”来表示import numpy as npimport matplotlib.pyplot as plt#导入数据data=np.loadtxt('p:\data\Employedpopulation.csv',delimiter=','原创 2021-11-23 23:02:53 · 716 阅读 · 0 评论 -
Python数据分析基础笔记(仅供本人学习记录)】E2.异常值处理案例
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata=pd.read_excel('sale.xls')#读取sale表格数据data 日期 销量 0 2015-03-01 51.0 1 2015-02-28 NaN原创 2021-11-23 23:01:40 · 282 阅读 · 0 评论 -
【Python数据分析基础笔记(仅供本人学习记录)】E1.时间日期转换实例
import pandas as pdfrom datetime import datetime#导入股票数据df = pd.read_excel('p:\data\沪深股票股本变动数据.xlsx', sheet_name='sharedata')#查看df中每个字段数据类型,发现df['日期']是int64print(df.info())<class 'pandas.core.frame.DataFrame'>RangeIndex: 65原创 2021-11-23 11:23:10 · 345 阅读 · 0 评论 -
【Python数据分析基础笔记(仅供本人学习记录)】P7.用pandas进行数据预处理
8.用数据进行数据预处理8.1数据清洗 在数据分析前,首先要进行数据采集。通常,采集到的原始数据大多数是不完整和不一致的“脏”数据,无法直接进行数据挖掘。为了提高挖掘质量,产生了数据预处理技术。数据预处理包括数据清洗,数据集成,数据变换,数据归约等。 数据清洗是发现并纠正数据文件中可识别的错误,如移除重复数据,处理缺失值和空格值,检测和过滤异常值,并检查数据一致性等。通过数据清洗不仅要使通过清洗后的数据变的可用,而且还要使数据变的更加适合进行后续的数据分析工作。8.1.1重复值处理原创 2021-11-23 11:22:32 · 2156 阅读 · 0 评论 -
【Python数据分析基础笔记(仅供本人学习记录)】P6.数据分析方法
7.7 数据分析方法pandas的数据分析方法包括基本统计分析,分组统计分析,分布分析,交叉分析,结构分析和相关分析等7.7.1基本统计分析基本统计分析又称为描述性统计分析,一般统计某个变量的个数、均值、标准差、最小值、25%分位值、50%分位值、75%分位值、以及最大值。描述性统计分析的功能是按各列返回基本统计量和分位数,函数的语法格式: DataFrame.describe() 或 DataFrame.columns.describe()【例】3在grade.xls文件中包含有学号(s原创 2021-11-23 11:21:31 · 1348 阅读 · 0 评论 -
【Python数据分析基础笔记(仅供本人学习记录)】P5.数据的读取与写入
7.6数据的读取与写入在现实世界中,数据的存储形式常分为文件和数据库两大类,具体见下表。因此,为了实现数据处理,首先需要解决的问题是如何从文件或数据库中读取数据,并将其存储为DataFrame对象,或将处理后的DataFrame中的数据存储到文件或数据库中。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mm2BISWE-1637637628475)(数据的存储形式.jpg)]pandas库为实现文件的读取与写入提供了专门的工具–I/O API函数,这些函数可分为完全对原创 2021-11-23 11:20:53 · 1172 阅读 · 0 评论 -
【Python数据分析基础笔记(仅供本人学习记录)】P4.pandas数据结构之间的运算以及函数应用
一、pandas数据结构之间的运算pandas数据结构Series和DataFrame对象都支持NumPy的接口,因此,这两种数据结构都可以使用NumPy提供的ufunc函数。pandas还提供了一些运算方法,如mean()、std()和max()等,这些函数与numpy类似。此外pandas还提供了二元运算符对应的函数,如add(),sub(),mul(),div(),mod()等。在算术运算中,pandas还具备按轴自动或显式数据对齐功能。1.算术和数据对齐pandas具有将两个数据结构索引自动对原创 2021-11-23 11:20:13 · 1368 阅读 · 0 评论 -
【Python数据分析基础笔记(仅供本人学习记录)】P3.pandas的索引
index索引对象[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6C7LfcaG-1637637263280)(./主要的index对象.jpg)]一、index对象的属性和方法1.获取index对象接下来是准备实验数据,即导入数据import numpy as npimport pandas as pd导入excel表格数据dt=np.loadtxt('salary.csv',delimiter=",",skiprows=1,dtype=object)原创 2021-11-23 11:14:43 · 983 阅读 · 0 评论 -
【Python数据分析基础笔记(仅供本人学习记录)】P2.DataFrame对象及常用操作
7.2 DataFrame对象及常用操作DataFrame的数据结构特点如下:1.DataFrame由共用相同索引的一组列组成2.DataFrame是一个表格型数据结构,每列值类型可以不同3.DataFrame常用于表达二维数组,也可用于表达多维数组4.DataFrame既有行索引(index),也有列索引(columns),其中行索引的数组与行有关,它与 series的索引数组相似,每个标签与标签所在行的所有元素相关联。而列索引包含一系列列标签,每个标签与一列数据相关联1.创建DataFram原创 2021-11-23 11:12:26 · 2992 阅读 · 0 评论 -
【Python数据分析基础笔记(仅供本人学习记录)】P1.Series对象及常用操作
7.1 pandas的导入方法:import pandas as pd 或者 from pandas ipmort *import pandas as pdimport numpy as npfrom sqlalchemy import create_engineengine = create_engine('mysql+pymysql://root:123456@localhost/dataanlysis?charset=utf8')7.2pandas的数据结构1.创建Series对象原创 2021-11-23 10:05:47 · 1215 阅读 · 0 评论