在此,我以剑来小说作为例子,你也可以借鉴我的代码爬取其他小说,有助于python爬虫的学习。
好了,进入正题,爬取主要分为8步。
1,打开第3方库
import requests
import re
from bs4 import BeautifulSoup
2,爬取剑来(网址为:https://www.booktxt.net/5_5871/)小说主页内容并用BeautifulSoup库进行打包
di=[]
url="https://www.booktxt.net/5_5871/"
res=requests.get(url)
res.raise_for_status()
res.encoding=res.apparent_encoding
soup=BeautifulSoup(res.text,"html.parser")
3.通过标签爬取想要的数据
d=soup.find_all("a")
4,保存每章的网址,记录章节数,同时删除一些无效的爬取信息
sum=0
for i in d:
i=i["href"]
if "/" in i:
continue
if "#footer"==i:
continue
if "javascript:addBookCase('5871');"==i:
continue
di.append(i)
sum=sum+1
5,输入客户想看的章节
a=eval(input("输入章节数:"))+6
url1="https://www.booktxt.net/5_5871/"+di[a]
6,爬取url1的内容并用BeautifulSoup库进行打包
res1=requests.get(url1)
res1.raise_for_status()
res1.encoding=res1.apparent

本文以《剑来》为例,详细介绍使用Python爬虫抓取小说内容的过程,包括使用BeautifulSoup解析网页、筛选数据、保存章节链接、按需爬取指定章节、以及实现阅读的上下章节功能。适合初学者学习参考。
最低0.47元/天 解锁文章
2303

被折叠的 条评论
为什么被折叠?



