使用jsoup提取富文本url

原创已于 2025-03-20 20:38:05 修改 · 489 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#java

于 2024-10-22 10:42:30 首次发布

使用第三方库确实可以简化URL提取和处理的任务。一个常用的库是 Jsoup，它是一个用于处理HTML的Java库，可以方便地解析和提取HTML中的各种元素，包括链接。

使用 Jsoup 提取 URL

1. 添加依赖

首先，你需要在项目中添加 Jsoup 的依赖。如果你使用的是 Maven，可以在 pom.xml 中添加以下依赖：

xml

<dependency>

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

<version>1.15.3</version>

</dependency>

如果你使用的是 Gradle，可以在 build.gradle 中添加以下依赖：

groovy

implementation 'org.jsoup:jsoup:1.15.3'

2. 使用 Jsoup 提取 URL

接下来，你可以使用 Jsoup 来解析HTML并提取符合条件的URL。

Java 示例

java

import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class URLExtractor { public static void main(String[] args) { String html = "<a href=\"http://www.baidu.com/path/to/image.jpg?param1=value1&param2=value2\">Link</a>" + "<img src=\"http://www.baidu.com/path/to/another/image.jpg?param1=value1&param2=value2\">" + "<a href=\"http://www.example.com/path/to/image.png?param1=value1&param2=value2\">Another Link</a>"; // 解析HTML Document doc = Jsoup.parse(html); // 选择所有包含 href 或 src 属性的元素 Elements elements = doc.select("[href], [src]"); // 遍历所有元素 for (Element element : elements) { String url = element.absUrl(element.hasAttr("href") ? "href" : "src"); if (url != null && url.toLowerCase().matches("http[s]?://[^\\s\"']*\\.jpg(\\?[^\\s\"']*)?")) { System.out.println("Extracted URL: " + url); } } } }

解释

解析HTML：
- 使用 Jsoup.parse(html) 将HTML字符串解析为 Document 对象。
选择元素：
- 使用 doc.select("[href], [src]") 选择所有包含 href 或 src 属性的元素。
遍历元素：
- 遍历所有选中的元素，使用 element.absUrl 方法获取绝对URL。
- 检查URL是否以 http 或 https 开头，并且包含 .jpg 文件扩展名以及可能的查询参数。
输出结果：
- 如果找到匹配项，输出提取的URL。