python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(二)

最新推荐文章于 2024-06-03 20:12:05 发布

原创

最新推荐文章于 2024-06-03 20:12:05 发布 · 4.3k 阅读

64 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #python

之前的博客已经写了python爬取豆瓣读书top250的相关信息，接下来继续看如何清洗数据。
如果有没看懂的或是不了解上一部分说的是什么内容的，请看https://blog.youkuaiyun.com/qq_45804925/article/details/112848887

现在开始具体内容的复习：

1. 豆瓣读书top250信息预处理

#数据清洗
import pandas as pd
import re
import time
# 先读取数据文件
data = pd.read_csv('E:/Class/商业智能实训/我~编写代码/DoubanMovies/book.csv')
result = pd.DataFrame(data)

a = result.dropna(axis=0, how='any')
pd.set_option('display.max_rows', None)     #输出全部行，不省略

b = u'数据'
number = 1

b1 = '1981-8'
li1 = a['出版社']
for i in range(0, len(li1)):
    try:
        if b1 in li1[i]:
            # print(number,li1[i])
            number += 1
            a = a.drop(i, axis=0)
    except:
        pass

b2 = '中国基督'
a['出版时间'] = a['出版时间'].str[0: 5]
li2 = a['出版时间']
for i in range(0, len(li2)):
    try:
        if b2 in li2[i]:
            # print(number,li2[i])
            number += 1
            a = a.drop(i, axis=0)
    except:
        pass

b3 = 'CNY'
li3 = a['价格']
for i in range(0, len(li3)):
    try: