【使用注意】Jsoup的select方法

本文探讨了使用div选择器抓取网页内容的方法,并遇到了部分网站因结构特殊导致内容无法正常获取的问题。文中详细介绍了常见的div标签抓取流程,并对比了不同情况下div标签的位置差异对于内容抓取的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前做了一个频道抓取:获取div

			Elements div_e;
			div_e = doc.select("div");
			Iterator<Element> div_it = div_e.iterator();
			while (div_it.hasNext()) {
                处理逻辑
            }

我是想通过select div块然后去遍历获取div里的内容,但是发现有的新闻网址频道抽取不了,发现它的div是嵌套在body或者是其它标签当中。

如:

常见情况:

  • div1
    • div2
      • ul
        • a

这种可以获取到a标签里面的内容

  • div1
    • body
      • ul
        • a
      • div2

这种情况找不到a标签里的内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值