4-正则运用之爬取糗事百科

本文介绍使用Python3和正则表达式爬取糗事百科网站的段子内容,通过实战巩固正则表达式的运用技巧。

【Python3网络爬虫】4-正则运用之爬取糗事百科

正则表达式实战巩固
import requests
from fake_useragent import UserAgent
import re

url = 'https://www.qiushibaike.com/text/page/{}/'
headers = {
    'User-Agent': UserAgent().chrome
}


def get_data(page):
    print("正在爬取第{}页".format(page))
    response = requests.get(url.format(page), headers=headers)
    info = response.text
    infos = re.findall(r'<div class="content">\s*<span>\s*(.+)\s*</span>', info)
    with open('duanzi.txt', 'a+', encoding='utf-8') as f:
        for info in infos:
            info = info.replace("\s", "")
            f.write(info + "\n\n")


for page in range(1, 14):
    get_data(page)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值