package jsoup;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
//jsoup跟JavaScript有些类似,主要用于爬取静态的网页。需要自己下载一个jar包jsoup-1.8.1.jar
public class GetLinks {
public static void getLinks(String url) {
.timeout(14000)
.get();
//此处需要自己填写网页中标签对应的id属性值
Element content = doc.getElementById("id属性值");
//用于存储链接
String linkHref="";
//获取链接(因为链接是多个所以使用"Elements")
Elements links=content.getElementsByTag("a");
System.out.println(linkHref);
}
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
//主程序main
getLinks(first);
}
}
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
//jsoup跟JavaScript有些类似,主要用于爬取静态的网页。需要自己下载一个jar包jsoup-1.8.1.jar
public class GetLinks {
public static void getLinks(String url) {
try {
//此处使用循环来遍历链接(如果存在多个链接的话)
for(int h=1;h<=8;h++){
//对链接进行拼接(格式需要自己重新定义,每个网站的格式都不相同)
//此处timeout设置了延迟,减少被网站识别爬虫的几率
.timeout(14000)
.get();
//此处需要自己填写网页中标签对应的id属性值
Element content = doc.getElementById("id属性值");
//用于存储链接
String linkHref="";
//获取链接(因为链接是多个所以使用"Elements")
Elements links=content.getElementsByTag("a");
for(int i=0;i<links.size();i++){
//获取链接的全称
linkHref = links.get(i).attr("abs:href");
//对获取的链接进行一些简单的操作
System.out.println(linkHref);
}
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
//主程序main
public static void main(String[] args) {
//需要自己填写一个url地址
getLinks(first);
}
}