使用jsoup提取富文本url

使用第三方库确实可以简化URL提取和处理的任务。一个常用的库是 Jsoup,它是一个用于处理HTML的Java库,可以方便地解析和提取HTML中的各种元素,包括链接。

使用 Jsoup 提取 URL

1. 添加依赖

首先,你需要在项目中添加 Jsoup 的依赖。如果你使用的是 Maven,可以在 pom.xml 中添加以下依赖:


xml

<dependency>

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

<version>1.15.3</version>

</dependency>

如果你使用的是 Gradle,可以在 build.gradle 中添加以下依赖:


groovy

implementation 'org.jsoup:jsoup:1.15.3'

2. 使用 Jsoup 提取 URL

接下来,你可以使用 Jsoup 来解析HTML并提取符合条件的URL。

Java 示例


java

import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class URLExtractor { public static void main(String[] args) { String html = "<a href=\"http://www.baidu.com/path/to/image.jpg?param1=value1&param2=value2\">Link</a>" + "<img src=\"http://www.baidu.com/path/to/another/image.jpg?param1=value1&param2=value2\">" + "<a href=\"http://www.example.com/path/to/image.png?param1=value1&param2=value2\">Another Link</a>"; // 解析HTML Document doc = Jsoup.parse(html); // 选择所有包含 href 或 src 属性的元素 Elements elements = doc.select("[href], [src]"); // 遍历所有元素 for (Element element : elements) { String url = element.absUrl(element.hasAttr("href") ? "href" : "src"); if (url != null && url.toLowerCase().matches("http[s]?://[^\\s\"']*\\.jpg(\\?[^\\s\"']*)?")) { System.out.println("Extracted URL: " + url); } } } }

解释

  1. 解析HTML

    • 使用 Jsoup.parse(html) 将HTML字符串解析为 Document 对象。
  2. 选择元素

    • 使用 doc.select("[href], [src]") 选择所有包含 href 或 src 属性的元素。
  3. 遍历元素

    • 遍历所有选中的元素,使用 element.absUrl 方法获取绝对URL。
    • 检查URL是否以 http 或 https 开头,并且包含 .jpg 文件扩展名以及可能的查询参数。
  4. 输出结果

    • 如果找到匹配项,输出提取的URL。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值