java爬虫下载FTP网站目录文件
写在前面
爬虫的本质就是自动化的去模拟正常人类发起的网络请求,然后获取网络请求所返回的数据。 跟我们人手动去点击一个连接,访问一个网页获取数据,并没有什么本质的区别。下面用java的方式来爬虫
ftp网站带目录递归爬取
爬取的ftp网站地址
http://learning.happymmall.com/
FTP网站带目录递归爬取的思路,可以参考python爬取的思路
同样的,java利用jsoup库也是按照这个思路爬取的,代码贴出来:
public void get_url(String page_url){
Document doc = null;
String url = "";
try {
// 获取需要爬取数据的地址集
List<String> nameList = new ArrayList<String>();
List<String> hrefList = new ArrayList<String>();
try {
url = page_url;
doc = Jsoup.connect(url).timeout(3000).get(); // 设置连接超时时间
} catch (Exception e2) {
System.out.println(e2);
}
Elements links = doc.select("a");
for (Element element : links) {
String href = element.attr("href");
hrefList.add(href);
String name = element.text();
nameList.add(name);
}
for(int i=1;i<nameList.size();i++){
String name = nameList.get(i);
String href = hrefList.get(</