亚马逊sale ranking analysis

本文分析了2019年亚马逊畅销书籍数据集,包括书籍的名称、作者、评分、评论数、价格、出版年份和类型等信息。发现评论最多的书籍主要为小说,价格集中在0到20美元,评论数在0到40000之间,评分中位数为4.6,表明大多数书籍口碑良好。Gary Chapman在non-fiction排名中表现最佳,而Jeff Kinney在fiction排名中最多产。评论数与评分及价格呈正相关。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

01 | 数据集

kaggle:
https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019

这是一份来自kaggle的数据集,内容是亚马逊2019年书籍的销售数据。通过pd.read_csv读取数据内容,查看columns。

Index([‘Name’, ‘Author’, ‘User Rating’, ‘Reviews’, ‘Price’, ‘Year’, ‘Genre’]
数据集包括书籍名称、作者、评分、评论数、价格、出版年份、类型这几个参数。

import pandas as pd

df = pd.read_csv(r'D:\pycharm\data\bestsellers with categories.csv')
print(df.columns)

02 | columns分析

在这里插入图片描述

03 | 代码

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
from pyecharts.charts import Line
from pyecharts import options as opts

pd.set_option('display.max_columns',1000)
pd.set_option('display.width',1000)
pd.set_option('display.max_colwidth',1000)
plt.rcParams['font.sans-serif'] = ['SimHei']
sns.set_style('whitegrid',{
   'font.sans-serif':['simhei','Arial']})

'''
1.查看数据
'''
df = pd.read_csv(r'D:\pycharm\data\bestsellers with categories.csv')
print(df.info())
print(df.describe())
print(df.head())

'''
2.描述统计
'''
# 查看Genre
genre = df['Genre'].value_counts
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值