从王者荣耀开始带你玩转Java爬虫
准备工作(在项目中导入Jsoup jar包)
步骤:
1.百度搜索Maven(进入Maven仓库)
2. 在搜索栏搜索Jsoup,点击下面的JSoup java HTML Parser链接进入
3. 所爬网站:https://pvp.qq.com/web201605/herolist.shtml
代码
public class WangZheServlet {
public static void main(String[] args) throws IOException {
//1.发送一个get类型的请求,并将结果集转换成Document对象
Document document = Jsoup.connect("https://pvp.qq.com/web201605/herolist.shtml").get();
//2.从Document对象获取class名为herolist的标签集合(get(0)代表获取第一个class为herolist)
Element element = document.getElementsByClass("herolist").get(0);
//3.从element对象中获取标签为行的标签集合
Elements tags = element.getElementsByTag("img");
//4.循环img标签集合,element数量每次循环出来的img标签对象
for(Element element1:tags){
//5.获取element1标签的src属性和alt属性值
String src = element1.attr("src");
String name = element1.attr("alt");
System.out.println("正在下载——" + name);
//6.再次发送请求获取头像信息,使用execute ,因为这个对象才能处理对象
Connection.Response response = Jsoup.connect("https:"+src).ignoreContentType(true).execute();
byte[] data = response.bodyAsBytes();
//7.使用IO流将byte[]构成具体文件保存到d盘的upload目录下
FileOutputStream is = new FileOutputStream("D:\\upload\\"+name+".jpg");
is.write(data);
}
}
}
所爬图片保存目录(D:\upload)