爬虫实战——正则表达式爬取糗事百科

最新推荐文章于 2024-12-05 10:17:14 发布

原创最新推荐文章于 2024-12-05 10:17:14 发布 · 321 阅读

0 ·

CC 4.0 BY-SA版权

爬虫同时被 2 个专栏收录

18 篇文章

订阅专栏

python

17 篇文章

订阅专栏

本文分享了一款糗事百科网站的爬虫代码实现，利用Python的requests库进行网页请求，通过正则表达式解析HTML，成功抓取了笑话内容。代码展示了如何设置User-Agent，发送GET请求，解析返回的文本，提取并打印笑话段落。

import re
import requests


def parse_url(url):
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"}
    response=requests.get(url,headers=headers)
    text=response.text
    contents=re.findall(r'<div class="content">.*?</div>',text,re.S)
    ends=[]
    for content in contents:
        x=re.sub(r'<.*?>',"",content)
        ends.append(x.strip())
    for end in ends:
        print(end)
        print("#"*30)



def main():
    for i in range(1,10):
        url="https://www.qiushibaike.com/text/page/%s/"%i
        parse_url(url)
main()