使用Xpath语法爬取豆瓣读书Top250

最新推荐文章于 2024-06-25 03:17:30 发布

原创

最新推荐文章于 2024-06-25 03:17:30 发布 · 1.9k 阅读

33 ·

CC 4.0 BY-SA版权

文章标签：

#python #xpath

使用Xpath语法爬取豆瓣读书Top250（csv存取数据）

使用的软件是Spyder
网页地址：https://book.douban.com/top250?start=0
直接上代码：
建议大家从网站上爬取数据的时候采取采取以下方法：

import time 
time.sleep(0.2)

以减缓对服务器的压力，当然如果爬取的数据量不大的话可以不采用，防止被封IP。

以下是完整代码：

# -*- coding: utf-8 -*-
"""
Created on Thu Apr 30 18:35:17 2020

@author: ASUS
"""


import requests
import csv
from lxml import etree

headers = {
   
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' 
            '(KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36'
}

book_file = open('豆瓣Top250.csv', mode='a', newline='', encoding='utf8')
writer = csv.writer(book_file)
writer.writerow(['书名','作者','出版社','出版时间','价格'