python3 小说爬虫

本文介绍了一个使用Python的requests库和正则表达式re库抓取纵横小说网小说章节内容的脚本。该脚本通过定时任务持续抓取指定URL的小说章节,将内容写入本地文件,并自动寻找下一章节的URL继续抓取,实现自动化的小说章节爬取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import requests,re
import time

def func(url):
    data = requests.get(url)
    data.encoding = 'UTF-8'
    data = data.text
    strd = re.search(r'<p>(.*)</p>',data)
    strd = strd.group().replace('<p>','----').replace('</p>','\n')
    return strd
def func2(url):
    data = requests.get(url)
    data.encoding = 'UTF-8'
    data = data.text
    s = re.search(r'(http://book.zongheng.com/chapter.*?\d{8}.html).*?下一章',data)
    return s.group(1)
url = ''
while True:
    time.sleep(5)
    if url == '':
        url = url = 'http://book.zongheng.com/chapter/557195/27125898.html'
    data = func(url)
    f = open('a.txt','a+')
    f.write(data)
    url = func2(url)
    print(url)
f.close()




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值