JAVA crawler 2018-07-04

最新推荐文章于 2025-05-04 12:29:56 发布

Jing_jing_X

最新推荐文章于 2025-05-04 12:29:56 发布

阅读量118

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_34319145/article/details/80913842

本文介绍了一种使用正则表达式从HTML源码中提取指定标签属性值的方法，并提供了具体的Java实现代码。此方法适用于网页爬虫项目，帮助开发者快速定位并获取所需的属性值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

crawler:

通过htmlutil爬虫框架能直接请求到相应标签里面的值, 下面这个可以通过获取到一整个标签来获取标签里面指定属性的值

/**
 * 获取指定HTML标签的指定属性的值
 * @param source 要匹配的源文本
 * @param element 标签名称
 * @param attr 标签的属性名称
 * @return 属性值列表
 */
public static List<String> match(String source, String element, String attr) {
    List<String> result = new ArrayList<>();
    String reg = "<" + element + "[^<>]*?\\s" + attr + "=['\"]?(.*?)['\"]?(\\s.*?)?>";
    Matcher m = Pattern.compile(reg).matcher(source);
    while (m.find()) {
        String r = m.group(1);
        result.add(r);
    }
    return result;
}