如何利用Python爬虫爬取小说网站并保存到txt文件

本人特别爱看网络小说,但是呢,有些小说网站的弹窗广告啊、悬浮广告太烦人,正好最近在研究Python,就来试试利用Python把小说站的小说爬下来,并保存到txt文件里。这样就可以直接使用手机打开txt来看了。并且呢,我也能熟悉利用python抓取文本数据的方法。

以爬取靠谱小说网的《伏天氏》这本小说的章节内容为例,目标url:http://www.kpxsw.com/0_479.html

第一步:选取文章列表其中某一章,检查网页,可以找到这本小说所有章节的链接和名称。
写出xpath表达式提取出href里的内容://div[@id=“list”]/dl/dd/a/@href
分析网页可得,提取出来的内容里每个元素前面应加上 http://www.kpxsw.com 得到的才是是每个章节真正的链接

第二步:接下来编写抓取章节的代码,抓取所有章节的链接,代码如下:

def get_urls():
    url = "http://www.kpxsw.com/0_479.html"
    response = requests.get(url, headers=headers)
    response.encoding = 'utf-8'
    html = etree.HTML(response.text)
可以使用Python的requests库和BeautifulSoup库实现爬取网站正文保存在本地的功能。具体步骤如下: 1. 使用requests库获取网页内容: ```python import requests url = "https://www.example.com" # 替换为需要爬取网站的URL headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"} response = requests.get(url, headers=headers) html = response.text ``` 2. 使用BeautifulSoup库解析网页内容获取正文: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html, "html.parser") text = soup.get_text() ``` 3. 将正文保存到本地文件: ```python with open("text.txt", "w", encoding="utf-8") as f: f.write(text) ``` 完整代码如下: ```python import requests from bs4 import BeautifulSoup url = "https://www.example.com" # 替换为需要爬取网站的URL headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"} response = requests.get(url, headers=headers) html = response.text soup = BeautifulSoup(html, "html.parser") text = soup.get_text() with open("text.txt", "w", encoding="utf-8") as f: f.write(text) ``` 注意:这种方法只适用于网页结构比较简单的情况,如果网页结构比较复杂,需要根据实际情况进行调整。另外,爬取网站内容时需要遵守相关法律法规,不得进行非法爬虫行为。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值