jsoup如何获取HTML的数据,如何使用Jsoup从html文件中获取特定数据？

weixin_39878716

于 2021-06-04 15:57:04 发布

阅读量284

点赞数

文章标签： jsoup如何获取HTML的数据

该博客讨论了如何利用Jsoup库从HTML文件中抓取特定类别的本地语言文字。作者提到，目标文本位于`div`元素内的`field-content`类下，但这些元素还包含其他子元素。为了提取纯文本，需要遍历子节点并排除非文本内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我有一个本地语言的新闻纸的HTML文件，我想收集在本地语言只在新闻纸上的所有单词如何使用Jsoup从html文件中获取特定数据？

我已经在html文件中观察到，在本地的所有单词语言是类字段内容div元素下，所以我已选择其元件获得的数据，但在div元件也含有的元素，如在其内部的本地语言的单词存在

所以如何获得只来自html文件的当地语言文字

我的代码：

public static void main(String a[])

{

Document doc;

try {

doc = Jsoup.connect("http://www.andhrabhoomi.net/").userAgent("Mozilla").get();

String title = doc.title();

System.out.println("title : " + title);

// get all links

//Elements links = doc.select("a[href]");

Elements body = doc.select("div.field-content");

for (Element link : body) {

System.out.println(link);

// get the value from href attribute

//System.out.println("\nlink : " + link.attr("href"));

//System.out.println("text : " + link.text());

}

}catch(IOException e){

System.out.println("error\n");

}

}

2016-03-15

Labeo

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。