python之爬取小说

from bs4 import BeautifulSoup as bs
import urllib
class Spider(object):
    def __init__(self):
        self.base_url='https://www.biquge.com.cn'
    def load_page(self,url):
        headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0"}
        url=self.base_url+url
        request=urllib.request.Request(url,headers=headers)
        response=urllib.request.urlopen(request)
        html=response.read().decode('utf-8')
        return html
    def parse_page(self,html):
        html=bs(html,'lxml')
        result=html.select('dd a')
        for i in result:
            item={}
            html=bs(self.load_page(i.attrs['href']),'lxml')
            content=html.find('div',attrs={'id':"content"}).text
            print('正在加载:'+i.text)
            item[i.text]=content
            with open(i.text+'.txt','ab') as file:
                print('正在缓存:'+i.text)
                file.write(str(item).encode())
if __name__=='__main__':
    spider=Spider()
    html=spider.load_page('/book/23488/')
    spider.parse_page(html)
### 如何用Python爬虫抓取网络小说内容 #### 使用的库 为了完成这一任务,通常会使用 `requests` 库来发送 HTTP 请求获取网页内容,使用 `parsel` 或 `BeautifulSoup` 来解析 HTML 文档提取所需的数据[^1]。此外,还可以引入 `tqdm` 库用于显示进度条,使程序运行过程更加直观。 #### 抓取流程概述 在实际操作中,需要先分析目标网站的小说页面结构,找到存储章节链接和正文的具体标签及其属性[^3]。通过这些信息构建请求 URL 并逐步访问各个章节页面,最终将所有章节的内容按顺序保存到本地文件中。 以下是基于上述方法的一个基本实现框架: ```python import os import requests from parsel import Selector from tqdm import tqdm def fetch_chapter(url): response = requests.get(url) selector = Selector(response.text) title = selector.css('h1::text').get() # 假设标题位于<h1>标签内 content = '\n'.join(selector.css('.content p::text').extract()) # 假设正文段落在.content类下的<p>标签里 return title, content def save_novel(chapters, filename="novel.txt"): with open(filename, 'w', encoding='utf-8') as f: for chapter in chapters: f.write(f"{chapter['title']}\n\n{chapter['content']}\n{'-'*40}\n") if __name__ == "__main__": base_url = input("请输入小说目录页URL:") resp = requests.get(base_url) sel = Selector(resp.text) links = ["http://example.com/" + link for link in sel.css(".list a::attr(href)").extract()] # 构造各章节点击路径列表 results = [] for url in tqdm(links[:5]): # 测试前五章 try: t,c = fetch_chapter(url) results.append({"title":t,"content":c}) except Exception as e: print(e) save_novel(results) ``` 此代码片段展示了如何定义函数分别处理单个章节下载以及整个书籍存盘的工作;并通过循环调用来遍历多个章节地址进行批量采集。 需要注意的是,在开发此类应用时应遵循robots协议尊重原站点规定,并注意适当设置延时避免高频次请求给服务器带来压力[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值