
数据分析2
yuhui_2000
这个作者很懒,什么都没留下…
展开
-
40【pandas案例】02电影数据
题目假设现在我们有一组从2006年到2016年1000部最流行的电影数据(1)我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?(2)对于这一组电影数据,如果我们想知道rating,runtime的分布情况,应该如何呈现数据?解df.info() # df的描述性信息====================================================================================================原创 2020-12-25 11:28:25 · 1156 阅读 · 1 评论 -
39【pandas案例】01PM2.5案例
动手现在我们有北上广、成都、和沈阳5个城市空气质量数据,请绘制出5个城市的PM2.5随时间的变化情况观察这组数据中的时间结构,并不是字符串,这个时候我们应该怎么办?原创 2020-12-24 23:12:19 · 698 阅读 · 1 评论 -
38【时间序列】01pandas时间序列02
在dataframe中使用时间序列# 设置时间序列为dataframe的indexindex=pd.date_range("20170101",periods=10)df=pd.DataFrame(np.random.rand(10),index=index)# 生成一个以时间序列为索引的dataframe# 为什么时间序列可以作为索引呢?# 因为时间序列在pandas中是一个DatetimeIndex这样一种类型 即是时间索引类型# 把时间序列设置为dataframe的索引有什么好处呢原创 2020-12-24 19:37:11 · 214 阅读 · 0 评论 -
37【时间序列】01pandas时间序列01
动手现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况,应该怎么做呢?数据来源:https://www.kaggle.com/mchirico/montcoalert/data...原创 2020-12-24 11:40:50 · 201 阅读 · 0 评论 -
34【数据的合并和分组聚合】04数据分组聚合02
分组和聚合常见的聚合操作DataFrameGroupBy对象有很多经过pandas优化的聚合方法高级分组和聚合需求1如果我们需要对国家和省份进行分组统计,应该怎么操作呢?# 一个分组依据--》返回的Series是一个索引# 两个分组依据--》返回的Series是一个索引# ……# 多个分组依据--》返回的Series是多个索引# 按照多个分组依据对数据进行分组 返回series# 方法一df.groupby(by=[df["Country"],df["State/Provi原创 2020-12-23 21:38:58 · 220 阅读 · 1 评论 -
36【数据的合并和分组聚合】06数据分组聚合练习和总结
动手1第一题使用matplotlib呈现出店铺总数排名前10的国家第二题使用matplotlib呈现出每个中国每个城市的店铺数量解df=df=pd.read_csv("../data/directory.csv",encoding="gbk")df.info()——————————————————————————————————————————————————————————————————<class 'pandas.core.frame.DataFrame'>Range原创 2020-12-23 18:34:51 · 305 阅读 · 1 评论 -
35【数据的合并和分组聚合】05数据的索引学习
索引和复合索引复合索引取值原创 2020-12-18 18:03:17 · 128 阅读 · 0 评论 -
33【数据的合并和分组聚合】03数据分组聚合
例题现在我们有一组关于全球星巴克店铺的统计数据,如果我想知道美国的星巴克数量和中国的哪个多,或者我想知道中国每个省份星巴克的数量的情况,那么应该怎么办?思路pandas中的分组和聚合...原创 2020-12-21 17:23:51 · 449 阅读 · 0 评论 -
32【数据的合并和分组聚合】02数据合并
导入如果我们想把下面这两组数据合并变为一组数据,应该怎么做?横向合并合并前合并后纵向合并合并前合并后数据合并之join-横向合并合并的前提条件合并之后的结果数据合并之merge-纵向合并...原创 2020-12-21 15:37:36 · 513 阅读 · 2 评论 -
31【数据的合并和分组聚合】01字符串离散化的案例
###11原创 2020-12-18 13:16:31 · 220 阅读 · 0 评论 -
30【统计方法和字符串离散化】02电影数据直方图
动手对于这一组电影数据,如果我们想rating,runtime的分布情况,应该如何呈现数据?原创 2020-12-18 13:16:47 · 596 阅读 · 0 评论 -
29【统计方法和字符串离散化】01pandas的常用统计方法
例题假设现在我们有一组从2006年到2016年1000部最流行的电影数据,我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data解pandas常用统计方法...原创 2020-12-15 18:06:08 · 181 阅读 · 0 评论 -
28【dataframe】04布尔索引和缺失数据的处理
000原创 2020-12-14 18:39:38 · 347 阅读 · 0 评论 -
27【dataframe】03dataframe的索引
dataframe之取行和列通过行索引和列索引loc & iloc经过pandas优化过的选择行和列的方式:df.loc:通过标签索引获取行列数据df.iloc:通过位置索引获取行列数据df.locdf.iloc选取数据并赋值更改...原创 2020-12-12 10:57:49 · 162 阅读 · 0 评论 -
26【dataframe】02dataframe的描述信息
dataframe的基础属性df.indexdf.columnsdf.valuesdf.shapedf.ndimdf.dtypesdataframe常用方法df.head()df.tail()df.info()df.describe()dataframe中的排序操作以某一列作为基准排序原创 2020-12-11 16:55:44 · 340 阅读 · 0 评论 -
25【dataframe】01pandas的dataframe的创建
dataframe常用操作创建dataframe(二维数组)Dataframe:二维,Series容器行索引和列索引DataFrame对象既有行索引,又有列索引行索引,表明不同行,横向索引,叫index,0轴,axis=0列索引,表名不同列,纵向索引,叫columns,1轴,axis=1在创建时指定dataframe的行索引和列索引dataframe的源代码在创建时指定行索引和列索引创建dataframe(字典)创建dataframe(MongoDB)原创 2020-12-10 21:40:40 · 159 阅读 · 0 评论 -
24【series和读取外部数据】02pandas读取外部数据
pandas之读取外部数据读取CSV文件pd.read_csv()这是我们要读取的CSV文件从其他的来源获取数据剪切板pd.read_clipboardExcel文件pd.read_excelSQLpd.read_sqljson文件pd.read_json网页中的表格pd.read_htmltxt文本文件pd.read_table……https://pandas.pydata.org/docs/reference/io.ht原创 2020-12-10 18:06:26 · 137 阅读 · 0 评论 -
23【series和读取外部数据】01pandas的series的了解
为什么要学习pandas?那么问题来了:既然numpy已经可以帮助我们处理数据,我们也能够结合matplotlib解决数据分析的问题,那么我们学习pandas的目的在什么地方呢?numpy只能够帮助我们处理数值型的数据,但是这还不够:很多时候,我们的数据除了数值之外,还有字符串,还有时间序列等比如:我们通过爬虫获取到了存储在数据库中的数据比如:之前youtube的例子中除了数值之外还有国家的信息,视频的分类(tag)信息,标题信息等所以,numpy能够帮助我们处理数值,但是pandas除了处原创 2020-12-10 16:36:07 · 260 阅读 · 0 评论 -
22【numpy中的nan和常用方法】04numpy中的随机方法
numpy更多好用的方法获取最大值最小值的位置np.argmax(arr,axis=0)np.argmax(arr,axis=1)np.argmin(arr,axis=0)np.argmin(arr,axis=1)axis=1:每一行的最值axis=0:每一列的最值创建一个全0或全1的数组全0:np.zeros((3,4))全1:np.ones((3,4))默认生成的全0或全1数组的类型是float64型的创建一个对角线为1的正方形数组(方原创 2020-12-09 22:39:08 · 269 阅读 · 0 评论 -
21【numpy中的nan和常用方法】03数据的拼接
数组的拼接竖直拼接np.vstack()水平拼接np.hstack()数组的行列交换为什么要进行行列交换?数组水平或者竖直拼接很简单,但是拼接之前应该注意什么?竖直拼接的时候:每一列代表的意义相同!!!否则牛头不对马嘴如果每一列的意义不同,这个时候应该交换某一组的数的列,让其和另外一类相同那么问题来了?如何交换某个数组的行或者列呢?交换数组的行和列# 交换第x行和第y行 x,y都是从0开始的t[[x,y],:]=t[[y,x],:]#原创 2020-12-08 23:30:08 · 153 阅读 · 0 评论 -
20【numpy中的nan和常用方法】02numpy中填充nan
123原创 2020-12-08 23:00:22 · 6368 阅读 · 0 评论 -
19【numpy中的nan和常用方法】01numpy中的nan和常用统计方法
numpy中的nan和inf什么是nannan/NAN/Nan not a number表示不是一个数字什么时候会出现nan类似于0/0 无穷-无穷这种无意义的运算当我们读取本地的文件为float的时候,如果有缺失,就会出现nan什么是infinf(-inf,inf) infinity 无穷inf表示正无穷-inf表示负无穷什么时候会出现inf(包括+inf和-inf)比如拿一个数除以0Python中会直接报错numpy中是一个inf或者是-inf如何指定一个nan原创 2020-12-03 16:43:11 · 1223 阅读 · 0 评论 -
18【numpy读取本地数据和索引】03numpy中更多的索引方式
numpy中数值的修改修改行列的值,我们能够很容易的实现,但是如果条件更复杂呢?比如我们想要把t中小于10的数字替换为3修改行列的值numpy中条件索引(bool索引)numpy中三元运算符如果我们想把t中小于10的数字替换为0,把大于10的替换为10,应该怎么做??使用bool索引python中三元运算符a=操作1 if 条件 else 操作2如果条件成立执行操作1并将得到的值赋值给a如果条件不成立执行操作2并将得到的值赋值给anp.where原创 2020-12-03 08:27:31 · 175 阅读 · 0 评论 -
17【numpy读取本地数据和索引】02numpy中的索引和切片
numpy索引和切片题目对于刚刚加载出来的数据,我如果只想选择其中的某一行(某一列),我们应该怎么做呢?其实操作很简单,和python中列表的操作一样取行取一行arr[n] # 第n+1行取连续多行arr[90:] # 第91行到最后一行 取连续的多行取不连续的多行# 取不连续的多行arr[[1,3,6]] # 取的是第2、4、7行arr[[多行索引]]取行和列的通用方法arr[行的索引,列的索引]取列为什么会出现这个错误原创 2020-12-02 20:08:24 · 154 阅读 · 0 评论 -
16【numpy读取本地数据和索引】01numpy读取本地数据
轴(axis)概念在numpy中可以理解为方向,使用0,1,2…数字表示,对于一个一维数组,只有一个0轴,对于2维数组(shape(2,2)),有0轴和1轴,对于三维数组(shape(2,2, 3)),有0,1,2轴有了轴的概念之后,我们计算会更加方便,比如计算一个2维数组的平均值,必须指定是计算哪个方向上面的数字的平均值那么问题来了:在前面的知识,轴在哪里?回顾np.arange(0,10).reshape((2,5)),reshpe中2表示0轴长度(包含数据的条数)为2,1轴长度为5,2X5原创 2020-12-02 17:35:25 · 578 阅读 · 0 评论 -
15【numpy】02数组的计算
数组的形状数组的行数和列数如何查看数组的形状arr.shape # arr:数组如何修改数组的形状arr.reshape(数组的形状)返回一个新的数组,而不是在原来的数组上进行修改一维数组、二维数组、多维数组一维数组二维数组多维数组...原创 2020-12-02 15:56:55 · 161 阅读 · 0 评论 -
14【numpy】01numpy数组的创建
学习概要什么是numpynumpy基础numpy常用方法numpy常用统计方法为什么要学习numpy快速方便科学计算的基础库什么是numpy一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型、多维数组上执行数值运算numpy创建数组(矩阵)...原创 2020-12-01 17:01:15 · 201 阅读 · 1 评论 -
13【matplotlib常用统计图】05更多的绘图工具的了解
matplotlib常见问题的总结应该选择那种图形来呈现数据matplotlib.plot(x,y)折线图matplotlib.bar(x,y)条形图matplotlib.scatter(x,y)散点图matplotlib.hist(data,bins,normed)直方图xticks和yticks的设置"""设置x轴和y轴上的刻度间距"""# y轴刻度间距_yticks=range(min(y),max(y)+1)plt.yticks(_ytick原创 2020-11-29 19:09:45 · 144 阅读 · 0 评论 -
12【matplotlib常用统计图】04绘制直方图
例题假设你获取了250部电影的时长(列表a中),希望统计出这些电影时长的分布状态(比如时长为100分钟到120分钟电影的数量,出现的频率)等信息,你应该如何呈现这些数据?a=[131, 98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115, 99, 136, 1原创 2020-11-29 18:18:02 · 1172 阅读 · 0 评论 -
11【matplotlib常用统计图】03绘制多次条形图
例题假设你知道了列表a中电影分别在2017-09-14(b_14), 2017-09-15(b_15), 2017-09-16(b_16)三天的票房,为了展示列表中电影本身的票房以及同其他电影的数据对比情况,应该如何更加直观的呈现该数据?a = ["猩球崛起3:终极之战","敦刻尔克","蜘蛛侠:英雄归来","战狼2"]b_16 = [15746,312,4497,319]b_15 = [12357,156,2045,168]b_14 = [2358,399,2358,362]数据来源:原创 2020-11-29 11:55:27 · 595 阅读 · 1 评论 -
10【matplotlib常用统计图】02绘制条形图
案例假设你获取到了2017年内地电影票房前20的电影(列表a)和电影票房数据(列表b),那么如何更加直观的展示该数据?a = ["战狼2","速度与激情8","功夫瑜伽","西游伏妖篇","变形金刚5:最后的骑士","摔跤吧!爸爸","加勒比海盗5:死无对证","金刚:骷髅岛","极限特工:终极回归","生化危机6:终章","乘风破浪","神偷奶爸3","智取威虎山","大闹天竺","金刚狼3:殊死一战","蜘蛛侠:英雄归来","悟空传","银河护卫队2","情圣","新木乃伊"]b=[56.01,原创 2020-11-29 10:49:24 · 890 阅读 · 0 评论 -
09【matplotlib常用统计图】01绘制散点图
案例假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律?a = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]b = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,15,11,15,5,13,17,10,11,13原创 2020-11-28 23:14:57 · 383 阅读 · 0 评论 -
08【matplotlib】06matplotlib绘制多次图形和不同图形的差异介绍和总结
动手题目假设大家在30岁的时候,根据自己的实际情况,统计出来了从11岁到30岁每年交的女(男)朋友的数量如列表a,请绘制出该数据的折线图,以便分析自己每年交女(男)朋友的数量走势a = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]要求:y轴表示个数x轴表示岁数,比如11岁,12岁等代码+结果代码# -*- coding: utf-8 -*-'''@Time : 2020/11/28 12:26@Author : yuhui@Emai原创 2020-11-28 15:42:52 · 383 阅读 · 0 评论 -
07【matplotlib】05matplotlib设置图的信息
给图像添加描述信息添加之后的效果图代码实现+分析+运行结果"""给图像添加描述信息"""plt.xlabel("时间/min") # 设置x轴的描述信息plt.ylabel("温度/℃") # 设置y轴的描述信息plt.title("10点到12点每分钟的气温变化情况") # 图的标题例题再做题目那么问题来了:如果列表a表示10点到12点的每一分钟的气温,如何绘制折线图观察每分钟气温的变化情况?a= [random.randint(20,35) for i in ra原创 2020-11-28 15:50:45 · 278 阅读 · 1 评论 -
06【matplotlib】04matplotlib设置显示中文
例题那么问题来了:如果列表a表示10点到12点的每一分钟的气温,如何绘制折线图观察每分钟气温的变化情况?a= [random.randint(20,35) for i in range(120)]调整x轴的刻度调整之前和之后的结果调整之前调整之后如何调整...原创 2020-11-27 23:09:49 · 270 阅读 · 0 评论 -
05【matplotlib】03matplotlib的绘制10点到12点的气温
新的练习题目那么问题来了:如果列表a表示10点到12点的每一分钟的气温,如何绘制折线图观察每分钟气温的变化情况?a= [random.randint(20,35) for i in range(120)]代码+结果# -*- coding: utf-8 -*-'''@Time : 2020/11/27 19:18@Author : yuhui@Email : 3476237164@qq.com@FileName: matplotlib_3.py@Software:原创 2020-11-27 22:22:00 · 323 阅读 · 0 评论 -
04【matplotlib】02matplotlib的基础绘图和调整x轴的刻度
matplotlib折线图例题matplotlib绘制折线图通过下面的小例子我们来看一下matplotlib该如何简单的使用假设一天中每隔两个小时(range(2,26,2))的气温(℃)分别是[15,13,14.5,17,20,25,26,26,27,22,18,15]运行结果分析1.matplotlib自动地帮助我们生成x轴和y轴上的刻度,这和我们在代码中指定的x轴和y轴的数据是不一样的我们指定的x轴和y轴数据x=range(2,26,2) # x轴数据,是一个可迭代对象y=原创 2020-11-27 19:14:25 · 6609 阅读 · 3 评论 -
03【matplotlib】01matplotlib的基础绘图
为什么要学习matplotlib能将数据可视化,更直观地呈现使数据更加客观、更具说服力什么是matplotlib最流行的Python底层绘图库主要做数据可视化图表名字取材于MATLAB,模仿MATLAB构建mat/plot/libmatplotlib基本要点axis指的是x轴或者是y轴一般情况下,在Python中:axis=0表示纵轴axis=1表示横轴matplotlib折线图每个红色的点是坐标,把5个点的坐标连接成一条线,组成了一个折线图那么到底如何把它原创 2020-11-27 17:35:13 · 257 阅读 · 0 评论 -
02【数据分析介绍和环境安装】02jupyter和conda的使用
参考https://blog.youkuaiyun.com/yuhui_2000/article/details/109178398?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160646513919724847191437%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=160646513919724847191437原创 2020-11-27 16:39:20 · 77 阅读 · 0 评论 -
01【数据分析介绍和环境安装】01数据分析的介绍
课程概要我们的数据分析要学习什么内容数据分析基础概念和环境matplotlib帮助我们绘图numpy帮助我们处理数值型的数组pandas在nunpy的基础之上,除了能够帮助我们处理数值型的数据之外,还可以帮助我们处理字符串以及时间序列、列表、字典……几乎所有的数据类型都是可以通过pandas进行处理的为什么要学习数据分析?...原创 2020-11-27 15:57:15 · 156 阅读 · 0 评论