python爬取糗事百科

最新推荐文章于 2020-10-21 14:10:52 发布

埃菲尔没有塔尖

最新推荐文章于 2020-10-21 14:10:52 发布

阅读量510

点赞数

分类专栏：【Python爬虫】

本文链接：https://blog.youkuaiyun.com/weixin_38819889/article/details/103549716

版权

本次要爬取的是糗事百科，地址如下：http://www.qiushibaike.com/8hr/page/1

1.思路分析：

url地址的规律非常明显，一共只有13页url地址

在这里插入图片描述

2.确定数据的位置

数据都在id='content-left’的div下的div中，在这个区域，url地址对应的响应和elements相同

在这里插入图片描述

3.糗事百科代码实现

import requests
from lxml import etree
import time

class QiuBai:
    def __init__(self):
        self.temp_url = "http://www.qiushibaike.com/8hr/page/{}"
        self.headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"}

    def get_url_list