java爬虫下载FTP网站目录文件

最新推荐文章于 2021-03-20 20:09:21 发布

wblearn

最新推荐文章于 2021-03-20 20:09:21 发布

阅读量800

点赞数 1

分类专栏：【JavaPrograming】文章标签：爬虫 java 大数据网络多线程

本文链接：https://blog.youkuaiyun.com/wudalang_gd/article/details/108136996

版权

java爬虫下载FTP网站目录文件

写在前面
ftp网站带目录递归爬取
java多线程爬虫
写在最后

写在前面

爬虫的本质就是自动化的去模拟正常人类发起的网络请求，然后获取网络请求所返回的数据。跟我们人手动去点击一个连接，访问一个网页获取数据，并没有什么本质的区别。下面用java的方式来爬虫

ftp网站带目录递归爬取

爬取的ftp网站地址

http://learning.happymmall.com/

在这里插入图片描述
FTP网站带目录递归爬取的思路，可以参考python爬取的思路

同样的，java利用jsoup库也是按照这个思路爬取的，代码贴出来:

public void get_url(String page_url){
   
        Document doc = null;
        String url = "";
        try {
   
            // 获取需要爬取数据的地址集
            List<String> nameList = new ArrayList<String>();
            List<String> hrefList = new ArrayList<String>();
            try {
   
                url = page_url;
                doc = Jsoup.connect(url).timeout(3000).get(); // 设置连接超时时间
            } catch (Exception e2) {
   
                System.out.println(e2);
            }
            Elements links = doc.select("a");
            for (Element element : links) {
   
                String href = element.attr("href");
                hrefList.add(href);
                String name = element.text();
                nameList.add(name);
            }

            for(int i=1;i<nameList.size();i++){
   
                String name = nameList.get(i);
                String href = hrefList.get(</

最低0.47元/天解锁文章