基于httpclient下载的页面,接着就是应该提取url了,最开始我用的是htmlpraser,过几天后,我就发现了还有jsoup这个包,非常的好用,接着我就直接用jsoup来抓取页面和提取出里面的url了,在这里跟大家分享一下代码。
import java.io.IOException;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JSOUP {
public static Set<String> extractLinks(String url){
Set<String> urls = new HashSet();
try {
Document doc =Jsoup.connect(url).get();
Elements links=doc.select("a[href]");
// System.out.println(links.size());
for(Element link :links){
String Url =link.attr("abs:href");
urls.add(Url);
}
} catch (IOException e) {
// TODO 自动生成的 catch 块
e.printStackTrace();
}
return urls;
}
本文介绍了一种利用Java库JSOUP从网页中提取所有链接的方法。通过连接指定URL并获取页面内容,该工具能够解析HTML并筛选出所有的<a>标签及其href属性,进而收集所有绝对路径的URL。
720

被折叠的 条评论
为什么被折叠?



