java之小说爬虫

博客介绍了借助Java的HTML解析框架Jsoup进行网页爬取的方法。给出了爬虫代码文件,如WebBookCrawler.java、WebBookHelper.java、App.java等,只需传入小说URL及相关CSS选择器即可进行爬取,还提到可借助浏览器解决CSS选择器编写问题,并展示了爬取结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

借助java的html解析框架Jsoup,可以方便爬取网页,该框架用法见Java html解析器之Jsoup

代码

该爬虫只有一个文件
WebBookCrawler.java

package top.sidian123;

import org.jsoup.HttpStatusException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.TextNode;

import javax.print.Doc;
import java.io.*;
import java.nio.charset.Charset;
import java.util.List;

/**
 * 爬取网路小说的爬虫
 * @author sidian
 * @date 2019/5/29 15:21
 */
public class WebBookCrawler {
    /**
     * 起始页
     */
    private String url;
    /**
     * 每一章标题的选择器
     */
    private String titleSelector;
    /**
     * 每一章正文的选择器
     */
    private String contentSelector;
    /**
     * 下一章链接的css选择器
     */
    private String nextChapterSelector;
    /**
     * 爬取后文件保存位置和命名,默认当前位置
     */
    private String filename="./小说.txt";
    /**
     * 是否以添加的方式写入文件,默认false
     */
    private boolean append=false;
    /**
     * 用于存储到文件中
     */
    private BufferedWriter write;

    public WebBookCrawler(String url,String titleSelector,String contentSelector,String nextChapterSelector){
        this.url=url;
        this.titleSelector=titleSelector;
        this.contentSelector=contentSelector;
        this.nextChapterSelector=nextChapterSelector;
    }
    public WebBookCrawler(String url,String titleSelector,String contentSelector,String nextChapterSelector,String filename){
        this.url=url;
        this.titleSelector=titleSelector;
        this.contentSelector=contentSelector;
        this.nextChapterSelector=nextChapterSelector;
        this.filename=filename;
    }

    /**
     * 爬取数据,默认延迟200ms
     * @throws IOException
     * @throws InterruptedException
     */
    public void crawl() throws IOException, InterruptedException {
        crawl(200);
    }


    /**
     * 爬取数据,异常时重试10次
     * @param delay
     * @throws IOException
     * @throws InterruptedException
     */
    public void crawl(int delay) throws IOException, InterruptedException {
        int count=10;//重试次数
        boolean flag=true;
        while (flag){
            try{
                _crawl(delay);
                flag=false;
            }catch (Exception e){
                if(--count!=0){
                    System.out.println("莫名错误,原因:"+e.getMessage());
                    System.out.println("开始第"+(10-count)+"次重试");
                    flag=true;
                    Thread.sleep(1000);

                    //设置为添加模式,防止文件被覆盖
                    this.append=true;
                }else{
                    throw e;
                }
            }
        }
    }

    /**
     * 设置append属性
     * @param append
     */
    public void setAppend(Boolean append){
        this.append=append;
    }

    /**
     * 开始爬出数据
     * @param delay 每次读取网页的延迟时间,单位ms,用于反爬虫
     * @throws IOException 获取网页和保存文件时错误,抛出该异常
     */
    private void _crawl(int delay) throws IOException, InterruptedException {
        try{
            //初始化
            write=new BufferedWriter(new FileWriter(filename, Charset.forName("utf-8"),append));
            int count=10;//文件写入的刷新间隔
            //遍历所有网页
            while(true){
                //获取文档
                Document document=getDocument(url);
                //获取小说内容
                getChapter(document);
                //判断html是否有“下一页”的链接
                Element link=document.selectFirst(nextChapterSelector);
                if(link==null){//没有“下一页”
                    //爬取完毕,跳出循环
                    break;
                }
                //获取下一页链接
                url=link.attr("abs:href");
                //每十章刷新一次
                if(--count==0){
                    write.flush();
                    count=10;
                }
                //延迟
                if(delay>0){
                    Thread.sleep(delay);
                }
            }
        }finally {
            write.close();
        }
    }

    /**
     * 获取该章节的标题、正文,并保存在文件中
     * @param document
     * @throws IOException
     */
    private void getChapter(Document document) throws IOException {
        //获取标题
        Element titleEle=document.selectFirst(titleSelector);
        String title=getContent(titleEle).trim();
        write.write(title+"\n\n");

        System.out.println("已获取章节:"+title);

        //获取正文
        Element contentEle=document.selectFirst(contentSelector);
        String content=getContent(contentEle).trim();
        write.write(content+"\n\n");
    }


    /**
     * 获取该元素中的文本内容。
     * 会遍历子元素
     * @param element
     * @return
     */
    private String getContent(Element element) {
        List<TextNode> textNodes=element.textNodes();
        StringBuilder stringBuilder=new StringBuilder();
        textNodes.forEach((node)->{
            if(!node.text().trim().isEmpty()){
                stringBuilder.append(node.text().trim()+"\n\n");
            }
        });
        return stringBuilder.toString();
    }

    /**
     * 从url上获取文档,为了防止反爬虫,这是一些头字段
     * 如果失败,会重试10次
     * @param url
     * @return
     */
    private Document getDocument(String url) throws IOException {
        int count=10;//重试次数
        boolean flag=true;
        Document document=null;
        while (flag){
            try{
                document = Jsoup.connect(url)
                        .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36")
                        .get();
                flag=false;
            }catch (IOException e){
                if(count--!=0){
                    System.out.println("网页获取失败,原因:"+e.getMessage());
                    System.out.println("开始第"+(10-count)+"次重试");
                }else{
                    throw e;
                }
            }
        }
        return document;
    }


}

用法很简单,传入小说url、标题css选择器、内容css选择器、下一章链接css选择器,即可。下面给出一个helper类:
WebBookHelper.java

package top.sidian123;

import java.io.IOException;

/**
 * @author sidian
 * @date 2019/5/29 16:49
 */
public class WebBookHelper {
    public static void 斗破苍穹() throws IOException, InterruptedException {
        WebBookCrawler crawler=new WebBookCrawler("https://www.biqukan.com/3_3037/1349252.html",
                "#wrapper > div.book.reader > div.content > h1",
                "#content",
                "#wrapper > div.book.reader > div.content > div.page_chapter > ul > li:nth-child(3) > a",
                "斗破苍穹.txt");
        crawler.crawl();
    }

    public static void 姐妹花的最强兵王() throws IOException, InterruptedException {
        WebBookCrawler crawler=new WebBookCrawler("https://www.81xzw.com/book/148528/0.html",
                "body > div.novel > h1",
                "#content",
                "body > div.novel > div:nth-child(5) > a:nth-child(3)",
                "姐妹花的最强兵王.txt");
        crawler.crawl();
    }
}

下面爬取一本小说:
App.java

package top.sidian123;

import java.io.IOException;

/**
 * Hello world!
 *
 */
public class App
{
    public static void main( String[] args ) throws IOException, InterruptedException {
        WebBookHelper.姐妹花的最强兵王();
        //WebBookHelper.斗破苍穹();
    }

}


css选择器不会写???没关系!!借助浏览器一步到位!!!
在这里插入图片描述

爬取结果

在这里插入图片描述

### Java小说爬虫实现教程 #### 工具准备 为了构建一个基于Java小说爬虫,需要引入一些必要的库来处理HTTP请求以及HTML解析。常用的工具包包括`Jsoup`用于网页抓取和解析[^1]。 ```xml <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.14.3</version> </dependency> ``` 上述代码展示了如何通过Maven项目管理器添加依赖项到您的工程中以便使用Jsoup库[^2]。 #### 基本流程设计 整个程序可以分为几个主要部分:发送网络请求获取数据、解析返回的数据提取所需信息、存储这些信息至文件或者数据库等持久化媒介之中[^3]。 以下是简单的例子展示如何利用Jsoup发起GET请求并打印出指定URL页面中的标题: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class NovelCrawler { public static void main(String[] args) throws Exception{ String url = "http://example.com"; // 替换为目标网站地址 Document document = Jsoup.connect(url).get(); System.out.println(document.title()); } } ``` 此段脚本实现了最基本的连接功能,并输出所访问站点的文档标题作为验证手段之一[^4]。 更复杂的场景下可能还需要考虑分页加载全部章节链接列表等问题;另外也要注意遵守目标服务器robots.txt协议规定以及其他法律条款约束条件下的合理合法操作行为准则[^5]。 #### 数据保存方式选择 对于大量文本型数据如整部小说内容来说,可以选择将其逐章写入单独TXT文件当中去完成本地存档工作。如果涉及到多线程并发下载,则需额外关注资源竞争情况避免覆盖错误发生等情况出现[^6]。 ```java Files.write(Paths.get("novel_chapter_1.txt"), content.getBytes(), StandardOpenOption.CREATE); ``` 以上片段演示了怎样把字符串形式的内容追加进特定路径名下的新创建出来的纯文本档案里头去[^7]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值