jsoup如何获取HTML的数据,如何使用Jsoup从html文件中获取特定数据?

该博客讨论了如何利用Jsoup库从HTML文件中抓取特定类别的本地语言文字。作者提到,目标文本位于`div`元素内的`field-content`类下,但这些元素还包含其他子元素。为了提取纯文本,需要遍历子节点并排除非文本内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我有一个本地语言的新闻纸的HTML文件,我想收集在本地语言只在新闻纸上的所有单词如何使用Jsoup从html文件中获取特定数据?

我已经在html文件中观察到,在本地的所有单词语言是类字段内容div元素下,所以我已选择其元件获得的数据,但在div元件也含有的元素,如在其内部的本地语言的单词存在

所以如何获得只来自html文件的当地语言文字

我的代码:

public static void main(String a[])

{

Document doc;

try {

doc = Jsoup.connect("http://www.andhrabhoomi.net/").userAgent("Mozilla").get();

String title = doc.title();

System.out.println("title : " + title);

// get all links

//Elements links = doc.select("a[href]");

Elements body = doc.select("div.field-content");

for (Element link : body) {

System.out.println(link);

// get the value from href attribute

//System.out.println("\nlink : " + link.attr("href"));

//System.out.println("text : " + link.text());

}

}catch(IOException e){

System.out.println("error\n");

}

}

2016-03-15

Labeo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值