小象学院
妮酱也爱敲代码
简单而快乐,善良而执着。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
seaborn-介绍
原创 2021-03-21 17:22:29 · 211 阅读 · 0 评论 -
matplotlib-坐标,标签,图例,标题
上下两行效果一样plt.yticks()里面可以放两个列表第七课 数据可视化第11节 Matplotlib坐标刻度、标签、图例、标题import matplotlib.pyplot as pltimport numpy as np# 生成数据data1 = np.random.randn(1000).cumsum()data2 = np.random.randn(1000).cumsum()data3 = np.random.randn(1000).cumsum()基本显示pl.原创 2021-03-21 12:16:58 · 669 阅读 · 2 评论 -
matplotlib-折线图颜色,标记,类型
第七课 数据可视化第十节 Matplotlib颜色、标记、线型import matplotlib.pyplot as pltimport numpy as npfig, subplot_arr = plt.subplots(2, 2, figsize=(8, 8))data = np.random.randn(20)subplot_arr[0, 0].plot(data, '--r.')subplot_arr[0, 1].plot(data, 'gv:')subplot_arr[1, .原创 2021-03-21 11:25:10 · 850 阅读 · 0 评论 -
matplotlib-子图的使用
第七课 数据可视化第九节 子图的使用import matplotlib.pyplot as pltimport numpy as np#划分画布fig, subplot_arr = plt.subplots(2, 2, figsize=(8, 8))#在画布上创建子图subplot_arr[0, 0].scatter(np.random.randn(50), np.random.randn(50) * 2)subplot_arr[0, 1].bar([1, 2, 3, 4, 5], [5,.原创 2021-03-21 11:17:53 · 158 阅读 · 0 评论 -
matplotlib-矩阵绘图
第七课 数据可视化第八节 矩阵绘图# 引入包import matplotlib.pyplot as pltimport numpy as np# 准备数据m = np.random.rand(10, 12)marray([[0.46838188, 0.88061003, 0.09905449, 0.86064009, 0.54258062, 0.0397806 , 0.98757139, 0.28271989, 0.13231385, 0.81527905, .原创 2021-03-21 11:05:48 · 2018 阅读 · 0 评论 -
matplotlib-直方图
第七课 数据可视化第七节 直方图的绘制# 引入包import matplotlib.pyplot as plt# 准备数据population_ages = [22, 55, 62, 45, 21, 22, 34, 42, 42, 4, 89, 82, 80, 80, 75, 65, 54, 44, 43, 42, 48]# 指定分组个数bins = 5plt.hist(population_ages, bins)plt.show()# 指定分组边界bins = [0, 10, .原创 2021-03-21 10:57:53 · 107 阅读 · 0 评论 -
matplotlib-散点图,柱状图
第七课 数据可视化第六节 散点图和柱状图的绘制# 引入包import matplotlib.pyplot as pltimport numpy as np散点图plt.figure()# 生成一组数据x = np.random.randn(50)y = x * 2# 可视化结果plt.scatter(x, y)plt.show()plt.figure()# 生成两组数据x = np.random.randn(50)y1 = x ** 2y2 = x * 2#..原创 2021-03-21 10:50:14 · 304 阅读 · 0 评论 -
matplotlib画布figure
第七课 数据可视化第五节 Matplotlib画布# 引入包import matplotlib.pyplot as pltimport numpy as np# 创建画布plt.figure()# 生成数据data = [2, 3, 6, 7, 11]# 可视化结果plt.plot(data)plt.show()设置画布大小# 创建画布plt.figure(figsize=(20, 5))# 生成数据random_data = np.random.randn(100)原创 2021-03-21 10:32:59 · 730 阅读 · 0 评论 -
matplotlib基本介绍
原创 2021-03-21 10:05:07 · 123 阅读 · 0 评论 -
pandas-滑动窗口
第四课 Pandas时序型数据分析第六节 时序数据滑动窗口操作import pandas as pdimport numpy as npser_obj = pd.Series(np.random.randn(1000), index=pd.date_range('20190101', periods=1000))ser_obj = ser_obj.cumsum()ser_obj.head()2019-01-01 0.4704242019-01.原创 2021-03-20 20:02:19 · 284 阅读 · 0 评论 -
pandas-时序数据重采样
第四课 Pandas时序型数据分析第五节 时序数据重采样import pandas as pdimport numpy as npdata_df = pd.read_csv('./datasets/day_stats.csv', index_col='date', parse_dates=True, dayfirst=True)data_df.head()city PM_China PM_US Post Polluted State CH Polluted State USdate ..原创 2021-03-20 19:38:27 · 403 阅读 · 1 评论 -
pandas-时序数据的位移与调整
第四课 Pandas时序型数据分析第四节 时序数据的位移与频率调整import pandas as pdimport matplotlib.pyplot as plt%matplotlib inline#parse_dates=True将时间序列解析为datetime类型data_df = pd.read_csv('./datasets/day_stats.csv', index_col='date', parse_dates=True, dayfirst=True)data_df.he..原创 2021-03-20 19:07:36 · 322 阅读 · 0 评论 -
pandas-时序性数据运算
第四课 Pandas时序型数据分析第三节 时序型数据运算import pandas as pdTimedeltapd.Timedelta('1 day')Timedelta('1 days 00:00:00')pd.Timedelta('1 day 2 hours')Timedelta('1 days 02:00:00')pd.to_timedelta(['1 day', '1 day 2 hours'])TimedeltaIndex(['1 days 00:00:00', '1 da..原创 2021-03-20 18:18:14 · 198 阅读 · 2 评论 -
pandas-时间戳索引
第四课 Pandas时序型数据分析第二节 时间戳索引import pandas as pddate_rangepd.date_range(start='2019-01-01', end='2019-02-01')DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04', '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08', ..原创 2021-03-20 17:45:34 · 639 阅读 · 0 评论 -
pandas-时序性数据创建和表示
第四课 Pandas时序型数据分析第一节 时序型数据的创建和表示import pandas as pd通过日期型数据列表创建from datetime import datetimedate_list1 = [datetime(2019, 1, 1), datetime(2019, 1, 2), datetime(2019, 1, 3)]pd.Series(date_list1)0 2019-01-011 2019-01-022 2019-01-03dtype: da...原创 2021-03-20 17:22:51 · 162 阅读 · 0 评论 -
pandas-类别型数据向量化
#!/usr/bin/env python# coding: utf-8# # 第三课 Pandas类别型数据分析# ## 第五节 类别型数据的向量化# In[1]:import pandas as pdimport numpy as np# In[2]:data_df = pd.read_csv('./datasets/2016_happiness.csv', nrows=3)data_df# * 有序类别数据编码# In[3]:#将类别向量化变成有序的data_...原创 2021-03-20 16:46:35 · 336 阅读 · 0 评论 -
pandas-类别型数据排序及比较
#!/usr/bin/env python# coding: utf-8# # 第三课 Pandas类别型数据分析# ## 第四节 类别型数据排序及比较# In[1]:import pandas as pdimport numpy as np# * 排序# In[2]:data = ['a', 'b', 'c', 'a']# In[3]:# 不设置ordereds = pd.Series(pd.Categorical(data, ordered=False))s# .原创 2021-03-19 21:56:52 · 302 阅读 · 0 评论 -
pandas-类别型数据操作
#!/usr/bin/env python# coding: utf-8# # 第三课 Pandas类别型数据分析# ## 第三节 类别型数据基本操作# In[1]:import pandas as pd# * 类别型数据属性# In[2]:s = pd.Series(['a', 'b', 'c', 'a'], dtype='category')s# In[3]:s.cat.categories# In[4]:s.cat.ordered# * 重命名类别名称# In.原创 2021-03-19 21:16:36 · 337 阅读 · 0 评论 -
pandas-类别型数据类型
#!/usr/bin/env python# coding: utf-8# # 第三课 Pandas类别型数据分析# ## 第二节 类别型数据类型# In[1]import pandas as pd# * 构造类别型数据# In[2]:# dtype=‘category’s = pd.Series(['a', 'b', 'c', 'a'], dtype='category')s# In[3]:# astype(‘category’)s1 = pd.Series(['a..原创 2021-03-19 20:56:22 · 487 阅读 · 0 评论 -
pandas-数据离散化
#!/usr/bin/env python# coding: utf-8# # 第三课 Pandas类别型数据分析# ## 第一节 数据的离散化及分箱操作# In[1]:import pandas as pd# * pandas.cut()# In[2]:# 创建数据df = pd.DataFrame({'Name':['George','Andrea','micheal','maggie','Ravi','Xien','Jalpa','Tyieren'], .原创 2021-03-19 20:27:14 · 244 阅读 · 0 评论 -
matplotlib-词云分析
#!/usr/bin/env python# coding: utf-8# # 第二课 Pandas文本数据分析# ## 第七节 词云分析# In[1]:from wordcloud import WordCloudimport matplotlib.pyplot as plt# * 英文词云分析# In[2]:with open('./datasets/eng.txt', 'r') as f: eng_text = f.read()# In[3]:eng_text.原创 2021-03-16 16:15:56 · 429 阅读 · 0 评论 -
pandas-中文分词工具
#!/usr/bin/env python# coding: utf-8# # 第二课 Pandas文本数据分析# ## 第六节 中文分词工具# In[1]:import jieba# In[2]:sentence = '欢迎来到小象学院学习数据分析'# In[3]:jieba.cut(sentence)# In[4]:list(jieba.cut(sentence, cut_all=False))# In[5]:list(jieba.cut(sentence, cut..原创 2021-03-16 15:42:39 · 921 阅读 · 1 评论 -
pandas-常用文本操作函数
#!/usr/bin/env python# coding: utf-8# # 第二课 Pandas文本数据分析# ## 第五节 常用的文本数据操作函数小结# In[1]:import pandas as pdimport numpy as np# In[2]:data_df = pd.read_csv('./datasets/2016_happiness.csv')data_df.head()# * strip() 从两侧的Series/Index中的每个字符串中删除空格(包.原创 2021-03-16 15:32:12 · 270 阅读 · 0 评论 -
pandas-文本数据的合并cat
原创 2021-03-12 21:33:45 · 414 阅读 · 0 评论 -
pandas-文本数据分割split
# 将航班经过的地点进行分割df['Location'].str.split(', ').head()# 使用expanddf['Location'].str.split(', ', expand=True).head()# 使用ndf['Location'].str.split(', ', expand=True, n=1).head()# 获取分割的结果df['Location'].str.split(', ').str.get(0).head()df['Locatio.原创 2021-03-12 21:18:00 · 1035 阅读 · 0 评论 -
pandas-向量化文本-str.lower()
原创 2021-03-12 20:47:58 · 506 阅读 · 0 评论 -
pandas-视图与拷贝
原创 2021-03-12 20:38:58 · 518 阅读 · 0 评论 -
pandas-where,mask
不符合条件的显示空值 NaN#!/usr/bin/env python# coding: utf-8# # 第一课 数据分析工具Pandas高阶# ## 第五节 where与mask函数# In[1]:import pandas as pdimport numpy as np# In[2]:s = pd.Series(np.arange(5), index=['a', 'b', 'c', 'd', 'e'])# In[3]:s# * 对比w.原创 2021-03-12 19:59:20 · 392 阅读 · 0 评论 -
pandas-isin
#!/usr/bin/env python# coding: utf-8# # 第一课 数据分析工具Pandas高阶# ## 第四节 isin函数# In[1]:import pandas as pdimport numpy as np# * Series.isin()# In[2]:s = pd.Series(np.arange(5), index=['a', 'b', 'c', 'd', 'e'])# In[3]:s# In[4]:a .原创 2021-03-12 19:47:30 · 235 阅读 · 0 评论 -
pandas-at,iat函数
#!/usr/bin/env python# coding: utf-8# # 第一课 数据分析工具Pandas高阶# ## 第三节 标量的快速获取与赋值at与iat函数# In[1]:import pandas as pdimport numpy as np# * 读取文件# In[2]:raw_df1 = pd.read_csv('./datasets/2016_happiness.csv')# In[3]:raw_df2 = raw_df1.copy()# In[原创 2021-03-11 22:26:35 · 896 阅读 · 0 评论 -
pandas-随机采样
#!/usr/bin/env python# coding: utf-8# # 第一课 数据分析工具Pandas高阶# ## 第二节 随机采样# In[1]:import pandas as pdimport numpy as np# * 读取文件# In[2]:raw_df = pd.read_csv('./datasets/2016_happiness.csv')# In[3]:raw_df.shape# In[4]:# 过滤前5行数据pr.原创 2021-03-11 22:11:07 · 918 阅读 · 0 评论 -
pandas-函数索引
第一课 数据分析工具Pandas高阶第一节 函数索引import pandas as pdimport numpy as np# 确认Pandas的版本>=0.18.1pd.__version__'0.25.1'读取文件raw_df = pd.read_csv('./datasets/2016_happiness.csv')raw_df.head()Country Region Happiness Rank Happiness Score Lower Confidence Inte原创 2021-03-10 20:39:06 · 152 阅读 · 0 评论 -
pandas-数据规整(3) -- 数据重构stack、unstack
最外层level=0最里面那层level可以是-1也可以是1.import pandas as pd# 创建dataframeheader = pd.MultiIndex.from_product([['Semester1','Semester2'],['Maths','Science']])d = [[12,45,67,56],[78,89,45,67],[45,67,89,90],[67,44,56,55]] df = pd.DataFrame(d, index=['Alisa','B..原创 2021-03-10 19:46:57 · 202 阅读 · 0 评论 -
pandas-数据连接 merge
import pandas as pdimport numpy as np# 创建dataframestaff_df = pd.DataFrame([{'姓名': '张三', '部门': '研发部'}, {'姓名': '李四', '部门': '财务部'}, {'姓名': '赵六', '部门': '市场部'}])student_df = pd.DataFrame([{'姓名': '张三', '专业':.原创 2021-03-10 19:26:20 · 179 阅读 · 0 评论 -
pandas-数据整合concat
import pandas as pdimport numpy as np# 创建dataframedf1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3'].原创 2021-03-10 19:08:44 · 104 阅读 · 0 评论 -
pandas-透视表操作-pivot_table
import pandas as pdimport numpy as np# 创建dataframed = { 'Name':['Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine', 'Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine'], 'Semester':['Semester 1','Semester 1','Semester 1','.原创 2021-03-10 18:51:11 · 357 阅读 · 0 评论 -
pandas-透视表-1
import pandas as pdimport numpy as np# 创建dataframed = { 'Name':['Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine', 'Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine'], 'Semester':['Semester 1','Semester 1','Semester 1','S原创 2021-03-10 18:37:35 · 131 阅读 · 0 评论 -
pandas-分组操作(2) -- 自定义分组及聚合操作agg
# 自定义分组规则def get_score_group(score): if score <= 4: score_group = 'low' elif score <= 6: score_group = 'middle' else: score_group = 'high' return score_group# 方法1:传入自定义的函数进行分组按单列分组data2 = data.set_index('H.原创 2021-03-10 16:38:46 · 2216 阅读 · 0 评论 -
pandas-分组与聚合 groupby
import pandas as pd# 文件路径filepath = '../data/2016_happiness.csv'data = pd.read_csv(filepath, usecols=['Country', 'Region', 'Happiness Rank', 'Happiness Score'])# 数据预览data.head()groupby()# 按单列分组obj1 = data.groupby('Region')print(type(obj1))常.原创 2021-03-10 16:14:20 · 182 阅读 · 0 评论 -
pandas-层级索引
data.set_index(['Region', 'Country'], inplace=True)# data.set_index(['Country', 'Region'], inplace=True)data# 外层选取data.loc['Western Europe']# 内层选取data.loc['Australia and New Zealand', 'New Zealand']#交换层级顺序data.swaplevel()#层级索引排序data.sort_.原创 2021-03-10 15:52:53 · 195 阅读 · 0 评论
分享