Jsoup解析网页(一)获取img标签的所有src属性

最近在项目中做一个需求,将一个网页中的外部的图片下载到我们自己的服务器,方法就是对html里的内容匹配出img标签的src的地址,然后利用这个地址下载图片,但总是会出现有的src的地址不是正确的图片资源,出现下载错误的情况,而我在img标签中发现还有data-src属性或者original-src属性,且这些属性里的地址是可下载的。

这就为我带来一个思路,匹配出img标签中所有属性中包含src字符串的都筛选出来。如果src的地址下载不了,那就用data-src或者其他的带src字符串属性的地址去下载。

关于怎么获取img标签中的src的属性,大家可能都了解用正则表达式去匹配。
这里先用正则表达式做个小测试吧:

       String html="<p>pic1:<img width=\"200\" data-src=\"/image/261/1.jpeg\" alt=\"\"/> pic2: <img width=\"200\" src=\"/image/751/3.jpg\" alt=\"\"/>,pic3:<img width=\"200\" src=\"/image/132/5.jpeg\" alt=\"\"/></p>";
       Pattern p = Pattern.compile("<img[^>]+src\\s*=\\s*['\"]([^'\"]+)['\"][^>]*>");
       Matcher m = p.matcher(html);
       while(m.find()){
           //整个img标签
           System.out.println("img标签-------------"+m.group());
           //src属性
           System.out.println("src属性-------------"+m.group(1));
       }

输出结果:

img标签-------------<img width="200" data-src="/image/261/1.jpeg" alt=""/>
src属性-------------/image/261/1.jpeg
img标签-------------<img width="200" src="/image/751/3.jpg" alt=""/>
src属性-------------/image/751/3.jpg
img标签-------------<img width="200" src="/image/132/5.jpeg" alt=""/>
src属性-------------/image/132/5.jpeg

今天刚接触用jsoup去解析html标签,发现非常方便,比用自己辛辛苦苦去写正则方便多了,正则整个写完,过一段时间再来看这个正则表达式,估计就看不懂了。

下面就介绍用jsoup解析网页:

我截取下面这个网址的部分源代码
http://domestic.firefox.sina.com/17/0412/08/4OPJ52GTXH0M3V9W.html
部分源代码

<li><a href="http://domestic.firefox.sina.com/" title="国内">国内</a></li>
      <li><a href="http://world.firefox.sina.com/" title="国际">国际</a></li>
      <li><a href="http://mil.firefox.sina.com/" title=
<think>好的,我现在需要帮助用户解决如何使用Java的Jsoup库来解析iframe中img标签src属性。用户的问题涉及到Jsoup和HTML解析,可能还涉及到iframe的处理。首先,我得回忆Jsoup的基本用法,以及它在处理iframe时的限制。 根据用户的描述,用户可能已经尝试过直接使用Jsoup选择器来获取iframe中的img标签,但没成功。这时候,我需要考虑Jsoup是否能够处理动态加载的内容或者嵌套的iframe。但Jsoup个HTML解析器,主要用于处理静态HTML内容,它不会执行JavaScript,所以如果iframe是通过JavaScript动态加载的,Jsoup可能无法获取到其中的内容。不过,如果iframe是静态存在于HTML中的,那么应该可以通过Jsoup解析。 接下来,我需要回忆用户提供的引用内容。引用[1]提到在使用WebDriver时,需要切换到对应的frame才能获取其中的元素。但Jsoup和WebDriver不同,Jsoup不执行JavaScript,也不像Selenium那样处理动态内容。因此,可能需要不同的方法。 用户提供的引用[4]提到使用Jsoup解析网页,但可能没有处理iframe的情况。所以,我需要确认Jsoup是否有能力解析嵌套的iframe中的元素。通常,当解析HTML文档时,Jsoup会将整个文档结构解析个DOM树,包括iframe标签。但是,iframe的内容通常是以src属性指向的另个HTML文件,或者内嵌在srcdoc属性中。如果是外部的srcJsoup不会自动加载并解析该外部内容,需要手动处理。如果是内嵌的srcdoc,那么内容可能在srcdoc属性中,可以提取出来再解析。 因此,解决步骤可能如下: 1. 使用Jsoup解析主HTML文档,找到所有的iframe标签。 2. 对于每个iframe标签,检查其srcsrcdoc属性获取内部HTML内容。 - 如果iframe使用srcdoc,直接提取该属性的内容进行解析- 如果iframe使用src指向外部URL,需要手动下载该外部HTML内容,再用Jsoup解析。 3. 对获取到的内部HTML内容再次使用Jsoup解析,然后从中提取img标签src属性。 需要注意的是,如果iframe的src是外部URL,用户需要处理网络请求,这可能涉及到使用HttpClient等工具来获取外部资源,然后再用Jsoup解析。这可能超出Jsoup本身的功能范围,需要结合其他库。 现在,根据用户提供的引用,引用[3]提到Jsoup过滤HTML标签时不删除换行符,这可能与当前问题无关。引用[2]提到将img路径替换为base64,这可能和后续处理有关,但当前问题主要是获取src属性。 接下来,我需要验证这些步骤是否可行。例如,假设有个HTML文档包含个iframe,其srcdoc属性中有img标签。那么代码应该先找到该iframe,提取srcdoc的内容,再解析这部分内容获取imgsrc。 例如: 主HTML: ``` <iframe id="ifm" srcdoc="<html><body><img src='image.jpg'></body></html>"></iframe> ``` Jsoup代码: ```java Document mainDoc = Jsoup.parse(html); Element iframe = mainDoc.select("iframe#ifm").first(); String srcdoc = iframe.attr("srcdoc"); Document frameDoc = Jsoup.parse(srcdoc); Elements imgs = frameDoc.select("img"); for (Element img : imgs) { String src = img.attr("src"); System.out.println(src); } ``` 如果是外部src的情况: ``` <iframe src="frame.html"></iframe> ``` 需要先下载frame.html的内容,假设用户已经获取了该内容,例如通过HttpClient: ```java String frameUrl = "http://example.com/frame.html"; // 使用HttpClient获取frame的内容 String frameHtml = ...; // 获取到的HTML内容 Document frameDoc = Jsoup.parse(frameHtml); // 然后提取imgsrc ``` 但用户的问题可能集中在如何处理内嵌的iframe内容,比如使用srcdoc的情况。因此,在回答中需要区分这两种情况,并给出相应的解决方法。 另外,用户可能没有考虑到iframe内容是否为嵌套,或者需要处理多层iframe的情况,这时候可能需要递归解析。 总结,解决方案的关键点在于: - 检查iframe的srcdoc或src属性- 对于srcdoc,直接解析其内容。 - 对于外部src,需要额外步骤获取内容。</think>要使用Java的Jsoup解析iframe中img标签src属性,需根据iframe内容来源分情况处理: ### 方法1:解析内嵌srcdoc的iframe 若iframe内容通过`srcdoc`属性内嵌: ```java String html = "<iframe srcdoc='<html><img src=\"image.jpg\"></html>'></iframe>"; Document mainDoc = Jsoup.parse(html); Element iframe = mainDoc.select("iframe").first(); // 提取srcdoc内容并解析 String frameContent = iframe.attr("srcdoc"); Document frameDoc = Jsoup.parse(frameContent); Elements imgs = frameDoc.select("img"); for (Element img : imgs) { System.out.println(img.attr("src")); // 输出:image.jpg } ``` ### 方法2:解析外部src的iframe(需配合HTTP请求) 若iframe的`src`为外部URL,需先获取该页面内容: ```java // 示例使用HttpClient获取外部资源 String frameUrl = iframe.absUrl("src"); // 获取完整URL // 发送HTTP请求获取frame内容(需添加异常处理) String frameHtml = Request.Get(frameUrl).execute().returnContent().asString(); Document frameDoc = Jsoup.parse(frameHtml); // 提取imgsrc ``` ### 注意事项 1. **动态内容限制**:Jsoup无法解析JavaScript动态加载的iframe内容,此类场景需改用Selenium等工具[^1]。 2. **相对路径处理**:使用`absUrl("src")`可获取img的绝对路径。
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值