使用第三方库确实可以简化URL提取和处理的任务。一个常用的库是 Jsoup,它是一个用于处理HTML的Java库,可以方便地解析和提取HTML中的各种元素,包括链接。
使用 Jsoup 提取 URL
1. 添加依赖
首先,你需要在项目中添加 Jsoup 的依赖。如果你使用的是 Maven,可以在 pom.xml 中添加以下依赖:
xml
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.15.3</version>
</dependency>
如果你使用的是 Gradle,可以在 build.gradle 中添加以下依赖:
groovy
implementation 'org.jsoup:jsoup:1.15.3'
2. 使用 Jsoup 提取 URL
接下来,你可以使用 Jsoup 来解析HTML并提取符合条件的URL。
Java 示例
java
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class URLExtractor { public static void main(String[] args) { String html = "<a href=\"http://www.baidu.com/path/to/image.jpg?param1=value1¶m2=value2\">Link</a>" + "<img src=\"http://www.baidu.com/path/to/another/image.jpg?param1=value1¶m2=value2\">" + "<a href=\"http://www.example.com/path/to/image.png?param1=value1¶m2=value2\">Another Link</a>"; // 解析HTML Document doc = Jsoup.parse(html); // 选择所有包含 href 或 src 属性的元素 Elements elements = doc.select("[href], [src]"); // 遍历所有元素 for (Element element : elements) { String url = element.absUrl(element.hasAttr("href") ? "href" : "src"); if (url != null && url.toLowerCase().matches("http[s]?://[^\\s\"']*\\.jpg(\\?[^\\s\"']*)?")) { System.out.println("Extracted URL: " + url); } } } }
解释
-
解析HTML:
- 使用
Jsoup.parse(html)将HTML字符串解析为Document对象。
- 使用
-
选择元素:
- 使用
doc.select("[href], [src]")选择所有包含href或src属性的元素。
- 使用
-
遍历元素:
- 遍历所有选中的元素,使用
element.absUrl方法获取绝对URL。 - 检查URL是否以
http或https开头,并且包含.jpg文件扩展名以及可能的查询参数。
- 遍历所有选中的元素,使用
-
输出结果:
- 如果找到匹配项,输出提取的URL。
3319

被折叠的 条评论
为什么被折叠?



