百度百科页面解析抓取(java版)

 前言:最近做个需求,就是把部分植物的百科内容抓取清洗,并且保存展示。
对比了几大百科网站,还是百度百科的比较好解析,写完了记录分享一下。

应用到的第三方包:

		<!-- hutool工具包 -->
		<dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>5.5.2</version>
        </dependency>
        <!-- jsoup工具包 -->
		<dependency>
			<groupId>org.jsoup</groupId>
			<artifactId>jsoup</artifactId>
			<version>1.11.3</version>
		</dependency>

代码如下:

public class DataAcquisitionService {
   
   

    private final static String BAIDU_BAIKE = "https://baike.baidu.com/item/{}";


    /**
     * 根据词条检索百度百科,然后返回结构化的百科html结构
     *
     * @param entry 词条
     * @return {@link String}
     */
    public static List<String> baiduBaikeContent(String entry) {
   
   
        String html = HttpRequest
                .get(StrUtil.format(BAIDU_BAIKE, entry))
                // 这个UserAgentConstants.userAgents是一个List<String>,保存着useragent的列表
                .header("user-agent", RandomUtil.randomEle(UserAgentConstants.userAgents))
                .timeout(3000)
                .execute()
                .body();
        if (html.equals("")) {
   
   
            throw new RuntimeException("抓到的页面为空");
        }
        Document page = Jsoup.parse(html);
        // 词条不存在
        if (page.head().selectFirst("title").text(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值