import requests,re
import time
def func(url):
data = requests.get(url)
data.encoding = 'UTF-8'
data = data.text
strd = re.search(r'<p>(.*)</p>',data)
strd = strd.group().replace('<p>','----').replace('</p>','\n')
return strd
def func2(url):
data = requests.get(url)
data.encoding = 'UTF-8'
data = data.text
s = re.search(r'(http://book.zongheng.com/chapter.*?\d{8}.html).*?下一章',data)
return s.group(1)
url = ''
while True:
time.sleep(5)
if url == '':
url = url = 'http://book.zongheng.com/chapter/557195/27125898.html'
data = func(url)
f = open('a.txt','a+')
f.write(data)
url = func2(url)
print(url)
f.close()
python3 小说爬虫
最新推荐文章于 2021-02-20 02:10:18 发布
本文介绍了一个使用Python的requests库和正则表达式re库抓取纵横小说网小说章节内容的脚本。该脚本通过定时任务持续抓取指定URL的小说章节,将内容写入本地文件,并自动寻找下一章节的URL继续抓取,实现自动化的小说章节爬取。
4952

被折叠的 条评论
为什么被折叠?



