爬虫初探：把豆瓣读书主页上书的URL、书名、作者、出版时间、出版社全部爬下来

原创于 2017-08-10 21:22:50 发布 · 2.2k 阅读

4 ·

CC 4.0 BY-SA版权

python 同时被 2 个专栏收录

19 篇文章

订阅专栏

爬虫

2 篇文章

订阅专栏

本文介绍了一个简单的Python爬虫程序，用于抓取豆瓣读书主页上的书籍信息，包括书名、作者、出版日期等，并通过正则表达式进行数据清洗。

import requests
import re
#进入豆瓣读书主页，把网页源代码打出来
content = requests.get('https://book.douban.com/').text
#定义一个正则表达式对象
pattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?publisher">(.*?)</span>.*?</li>', re.S)
results = re.findall(pattern, content)
for result in results:
    url,name,author,date,publish = result
#删除多余的空格和换行符
    author = re.sub('\s','',author)
    date = re.sub('\s','',date)
    publish = re.sub('\s','',publish)
    print(url,name,author,date,publish)

得到的结果如下：

第一次完整的写一个小爬虫程序，个人感觉很爽，正则表达式匹配是关键，后面的格式整理让输出结果好看也很重要