采用jsoup 分解HTML 。使用和JS操作DOM分类似。
示例代码:
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class ParserHtml {
public static void main(String[] args) throws IOException {
String url = "http://www.jd.com/";//能够依据情况选择POST,GET请求URL
Document doc = Jsoup.connect(url).data("query", "Java").userAgent("Mozilla").cookie("auth", "token").timeout(6000).get();
/* 依据ID获取 */
Element footer = doc.getElementById("footer-2013");
System.err.println(footer.getAllElements());
/* 依据标签获取 */
Elements element = doc.getElementsByTag("img");
for (int i = 0; i < element.size(); i++) {
System.out.println(element.get(i).attr("src"));
}
}
}
使用JSOUP工具包
jsoup-1.5.2.jar
下载地址: http://download.youkuaiyun.com/detail/kevin_luan/7594563版权声明:本文博主原创文章,博客,未经同意不得转载。
本文介绍如何利用JSOUP工具包解析HTML文档,并通过ID和标签获取特定元素,包括获取元素的基本信息及属性。
872

被折叠的 条评论
为什么被折叠?



