python#数据分析#当当网畅销图书榜单

读取数据:

df = pd.read_csv('./data/当当网畅销图书榜单数据.csv')
# 查看前十条数据
df.head(10)

在这里插入图片描述


数据预处理:

  • 查看数据信息
# 查看数据信息
df.info()

在这里插入图片描述

  • 去除重复值
# 去除重复值
df = df.drop_duplicates(subset=['书名', '出版日期'])
  • 对年份时间处理,提取年份时间
# 处理年份时间格式
df['出版日期_year'] = pd.to_datetime(df['出版日期']).dt.year

在这里插入图片描述

  • 再检查数据
# 查看数据信息
df.info()

在这里插入图片描述

  • 保存处理好后的数据
# 保存数据  
df.to_csv('./data/当当网畅销图书榜单数据处理后.csv', index=False)

数据可视化:

  • 读取处理后的数据
# 读取处理后的数据
df = pd.read_csv('./data/当当网畅销图书榜单数据处理后.csv')
  • 作者图书数量分布图(前20位)—漏斗图
# 1.作者图书数量分布图---漏斗图
new_data = []
data = df['作者'].value_counts()
data = data.sort_values(
    ascending=False # 降序排列
    ).head(20)
for index, value in data.items():
    new_data.append((index, value))
chart = Funnel(init_opts=opts.InitOpts(width="1200px", height="600px"))
chart.add(series_name="数量",
          data_pair=new_data, 
          label_opts=opts.LabelOpts(
             font_size=10, # 标签字体大小
              is_show=True, # 显示标签
              position="inside", # 标签位置
              formatter="{b} : {c}本" # 显示数据内容
          ),
          tooltip_opts=opts.TooltipOpts(
              trigger='item', # 鼠标悬停显示数据
          )
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值