Pandas统计分析基础

本文介绍了Pandas数据的基本统计分析,包括使用.describe()进行汇总统计,如计数、平均值、标准差等;以及数据的累计统计分析,如.cumsum()、.cumprod()等。此外,还详细讲解了滚动计算(窗口计算)函数,如.rolling()计算相邻元素的和、平均值、方差等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Pandas统计分析

pandas数据的基本统计分析

和numpy的函数近似

import pandas as pd

dates = pd.date_range('20130101',periods=10)
dates
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06', '2013-01-07', '2013-01-08',
               '2013-01-09', '2013-01-10'],
              dtype='datetime64[ns]', freq='D')
import numpy as np

df = pd.DataFrame(np.random.randn(10,4),index=dates,columns=['A','B','C','D'])
df
A B C D
2013-01-01 -1.587560 -0.198819 0.720054 1.921686
2013-01-02 0.296288 1.876570 0.338344 0.597835
2013-01-03 -1.832852 0.752045 2.184984 -0.157722
2013-01-04 -0.650829 1.690322 -1.145963 -0.798702
2013-01-05 -0.729986 -0.494417 2.166254 1.131232
2013-01-06 -1.759444 -1.104058 0.462934 2.050315
2013-01-07 0.760111 -1.753986 0.104831 1.075343
2013-01-08 0.096572 0.383660 0.604831 0.715224
2013-01-09 0.126292 1.025429 0.019330 -0.417396
2013-01-10 -0.179047 0.175366 0.826219 -0.451984
df.describe() # 快速统计结果
A B C D
在音乐行业中,利用Pandas对收入数据进行统计分析可以帮助我们更好地理解音乐市场的动态、艺术家的收益分布以及不同类型的音乐或活动的表现。Pandas是一个强大的Python数据分析库,它提供了一系列的数据结构(如DataFrame和Series)和函数,非常适合处理结构化数据。 首先,你需要导入Pandas并读包含音乐行业收入数据的CSV文件或数据库。例如,数据可能包括艺术家姓名、专辑名称、销售量、流媒体播放次数、演唱会门票销售额等字段。 ```python import pandas as pd # 读数据 music_data = pd.read_csv('music_income_data.csv') # 查看数据前几行 print(music_data.head()) ``` 接着,你可以使用Pandas的功能来进行基本的描述性统计: ```python # 描述性统计 summary_stats = music_data.describe() print(summary_stats) ``` 通过`groupby`函数,可以按类别(如艺人、专辑类型等)分组计算平均收入: ```python # 按艺人统计平均收入 artist_revenue = music_data.groupby('Artist')['Revenue'].mean() print(artist_revenue) # 或者按年度和类型统计 yearly_revenue_by_type = music_data.groupby(['Year', 'Genre'])['Revenue'].sum() print(yearly_revenue_by_type) ``` 此外,还可以使用Pandas画出柱状图或折线图展示趋势,比如收入随时间的变化,或者不同类型的音乐收入对比: ```python import matplotlib.pyplot as plt # 年度收入变化图 plt.figure(figsize=(10,6)) music_data['Year'].value_counts().sort_index().plot(kind='bar') plt.title('年度音乐收入分布') plt.xlabel('年份') plt.ylabel('收入(单位)') plt.show() # 类型间收入比较 plt.figure(figsize=(10,6)) yearly_revenue_by_type.unstack().plot(kind='bar') plt.title('不同类型音乐收入比较') plt.xlabel('类型') plt.xticks(rotation=45) # 旋转标签以避免重叠 plt.ylabel('收入(单位)') plt.legend(title='年份') plt.show() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值