从王者荣耀开始带你玩转Java爬虫

最新推荐文章于 2024-07-19 17:41:40 发布

勤奋的小镇青年、

最新推荐文章于 2024-07-19 17:41:40 发布

阅读量220

点赞数

文章标签： java

本文链接：https://blog.youkuaiyun.com/weixin_53106424/article/details/114309503

版权

从王者荣耀开始带你玩转Java爬虫

准备工作（在项目中导入Jsoup jar包）
步骤：
1.百度搜索Maven(进入Maven仓库)
2. 在搜索栏搜索Jsoup,点击下面的JSoup java HTML Parser链接进入
3. 所爬网站：https://pvp.qq.com/web201605/herolist.shtml
在这里插入图片描述
代码

public class WangZheServlet {
    public static void main(String[] args) throws IOException {
        //1.发送一个get类型的请求，并将结果集转换成Document对象
        Document document = Jsoup.connect("https://pvp.qq.com/web201605/herolist.shtml").get();
        //2.从Document对象获取class名为herolist的标签集合(get(0)代表获取第一个class为herolist)
        Element element = document.getElementsByClass("herolist").get(0);
        //3.从element对象中获取标签为行的标签集合
        Elements tags = element.getElementsByTag("img");
        //4.循环img标签集合，element数量每次循环出来的img标签对象
       for(Element element1:tags){
       //5.获取element1标签的src属性和alt属性值
           String src = element1.attr("src");
           String name = element1.attr("alt");
           System.out.println("正在下载——" + name);
       //6.再次发送请求获取头像信息，使用execute ，因为这个对象才能处理对象
         Connection.Response response = Jsoup.connect("https:"+src).ignoreContentType(true).execute();
           byte[] data = response.bodyAsBytes();
       //7.使用IO流将byte[]构成具体文件保存到d盘的upload目录下
           FileOutputStream is = new FileOutputStream("D:\\upload\\"+name+".jpg");
           is.write(data);
       }
    }
}