java爬虫下载FTP网站目录文件

写在前面

爬虫的本质就是自动化的去模拟正常人类发起的网络请求,然后获取网络请求所返回的数据。 跟我们人手动去点击一个连接,访问一个网页获取数据,并没有什么本质的区别。下面用java的方式来爬虫

ftp网站带目录递归爬取

爬取的ftp网站地址

http://learning.happymmall.com/

在这里插入图片描述
FTP网站带目录递归爬取的思路,可以参考python爬取的思路

同样的,java利用jsoup库也是按照这个思路爬取的,代码贴出来:

public void get_url(String page_url){
   
        Document doc = null;
        String url = "";
        try {
   
            // 获取需要爬取数据的地址集
            List<String> nameList = new ArrayList<String>();
            List<String> hrefList = new ArrayList<String>();
            try {
   
                url = page_url;
                doc = Jsoup.connect(url).timeout(3000).get(); // 设置连接超时时间
            } catch (Exception e2) {
   
                System.out.println(e2);
            }
            Elements links = doc.select("a");
            for (Element element : links) {
   
                String href = element.attr("href");
                hrefList.add(href);
                String name = element.text();
                nameList.add(name);
            }

            for(int i=1;i<nameList.size();i++){
   
                String name = nameList.get(i);
                String href = hrefList.get(</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值