写在前面:
本次是根据前文讲解的爬虫、数据清洗、分析进行的一个纵隔讲解案例,也是对自己这段时间python爬虫、数据分析方向的一个总结。
本例设计一个豆瓣读书数据⽂件,book.xlsx⽂件保存的是爬取豆瓣⽹站得到的图书数据,共 60671 条。下⾯进⾏探索性数据分析。
文章目录
一、清洗爬取的网站数据
1. 导入数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rc('font', \*\*{'family':'SimHei'})
# 导⼊数据
df = pd.read_excel('books.xlsx')
# 删除第9列
df = df.drop('Unnamed: 9', axis=1)
2、清洗方法
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rc('font', \*\*{'family':'SimHei'})
# 导⼊数据
df = pd.read_excel('books.xlsx')
# 删除第9列
df = df.drop('Unnamed: 9', axis=1)
# 对数据做清洗(缺失值与异常值)