java 异常

最新推荐文章于 2025-09-10 22:21:01 发布

weixin_30678821

最新推荐文章于 2025-09-10 22:21:01 发布

阅读量73

点赞数

CC 4.0 BY-SA版权

文章标签： java

原文链接：http://www.cnblogs.com/agileblog/p/3607451.html

本文介绍了一种基于XPath的数据抓取方法，并演示了如何利用HtmlCleaner进行网页内容的清洗。通过实例代码展示了从指定URL获取页面内容、解析并提取有用信息的过程。

private static void Infoextract(String page) throws XPatherException,
IOException {
String url;
Bean bean = new Bean();
String charset = "GBK";
for (int i = 0; i < list.size(); i++) {
url = list.get(i);
if(url.indexOf("pic") != -1) continue;
try{
bean = Clean.Clean(url, charset, xpath);
Beans.add(bean);
System.out.println(url);
}catch(Exception e){
e.printStackTrace();
continue;
}
}
}