简单爬取网页上的小说

简单爬取一下网页上的小说(能看到的)并保存在文件中:

import requests
import parsel
# 分析网页,先爬取第一章
# 获取网页数据 建议每次都写headers 因为如果次数太多 会被限速
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                         '(KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
url = 'https://read.qidian.com/ajax/book/category?_csrfToken=v9DxpKiCAUhmnK3w3iU7Mahacm8F99gkGfvpcv60&bookId=1015209014'


def get_text(url):
    response = requests.get(url, headers=headers)
    # 提取我们需要的小说内容
    sel = parsel.Selector(response.text)
    # 章节名 使用css提取
    chapter_name = sel.css('span.content-wrap::text').get()
    # 正文
    _chapter_text = sel.css('div.read-content.j_readContent > p::text').getall()
    # 优化输出内容
    chapter_text = [chapter_name]
    for text in _chapter_text:
        chapter_text.append(text)
    print('\n'.join(chapter_text))
    with open('xx.txt', mode='a', encoding='utf-8') as f:  # 此处有待优化 将书名写入
        f.write('\n'.join(chapter_text))


response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
chapter_names = []
chapter_urls = []
# 以下代码应该根据网页的json数据的实际情况来确定遍历次数与元素标签
for i in range(int(len(response.json()['data']['vs']))):
    for j in range(int(len(response.json()['data']['vs'][i]['cs']))):
        chapter_names.append(response.json()['data']['vs'][i]['vN'] + ' ' + response.json()['data']['vs'][i]['cs'][j]['cN'])
        if i == 0:  # 免费章节 每一章节的地址
            chapter_urls.append('https://read.qidian.com/chapter/' + response.json()['data']['vs'][i]['cs'][j]['cU'])
for i in chapter_urls:
     get_text(i)  # 每一章的内容

为了使用 Java 编写网络爬虫来爬取网页上的小说内容,可以基于不同的方式实现,包括使用基础的 `HttpClient` 或者利用现成的框架如 `WebMagic`。以下是一些示例和步骤供参考: ### 使用 Apache HttpClient 实现简单爬虫 可以通过 `HttpClient` 发送 HTTP 请求并获取网页内容,然后使用解析库(如 Jsoup)提取所需的小说数据。 #### 示例代码:使用 HttpClient 获取网页内容 ```java import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; public class SimpleCrawler { public static void main(String[] args) throws Exception { CloseableHttpClient httpClient = HttpClients.createDefault(); HttpGet httpGet = new HttpGet("https://www.example.com/novel-content"); // 替换为实际目标网址 try (CloseableHttpResponse response = httpClient.execute(httpGet)) { if (response.getStatusLine().getStatusCode() == 200) { String content = EntityUtils.toString(response.getEntity(), "UTF-8"); System.out.println(content); // 输出网页内容 } } } } ``` 此代码演示了如何发送 GET 请求并获取网页响应,适用于简单的页面抓取 [^3]。 --- ### 使用 Jsoup 解析 HTML 内容 在获取网页内容后,可以结合 Jsoup 进行解析,提取具体的小说章节或正文。 #### 示例代码:使用 Jsoup 提取特定文本 ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class NovelParser { public static void main(String[] args) throws Exception { String html = "<html><body><div id=\"content\">这里是小说正文内容</div></body></html>"; Document doc = Jsoup.parse(html); String novelText = doc.getElementById("content").text(); // 根据实际HTML结构调整选择器 System.out.println(novelText); } } ``` 将上面两个部分结合即可实现一个完整的流程: 1. 利用 `HttpClient` 获取远程网页。 2. 使用 Jsoup 解析并提取需要的小说文本 [^3]。 --- ### 使用 WebMagic 框架简化开发 WebMagic 是一个功能强大的 Java 爬虫框架,提供了清晰的组件结构(Downloader、PageProcessor、Scheduler 和 Pipeline),适合用于构建复杂的爬虫项目。 #### 示例代码:WebMagic 实现小说爬取 ```java import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.processor.PageProcessor; public class NovelCrawler implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override public void process(Page page) { // 假设小说内容在 <div class="novel-content"> 中 String content = page.getHtml().css("div.novel-content", "html").get(); page.putField("content", content); } @Override public Site getSite() { return site; } public static void main(String[] args) { Spider.create(new NovelCrawler()) .addUrl("https://www.example.com/novel-chapter-1") // 替换为目标小说页面 .run(); } } ``` 该示例展示了如何通过 WebMagic 的 CSS 选择器快速提取网页中的小说内容,并且支持多线程处理和持久化存储等功能 [^2]。 --- ### 注意事项 1. **遵守网站规则**:确保爬取行为符合目标网站的服务条款,避免对服务器造成过大的负载。 2. **设置请求头 User-Agent**:模拟浏览器访问以防止被反爬虫机制拦截。 ```java httpGet.setHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"); ``` 类似配置可提升兼容性 [^4]。 3. **异常处理与重试机制**:在实际部署时应加入超时、重试等逻辑,保证程序稳定性。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值