之前研究了好久怎样爬取百度图片,每次爬取百度的页数都是一页,数量并不多。
现在终于搞定了。
废话不多说,直接上代码。
这里分解利用了json
和jsoup
的类。
jar包下载地址如下:
json
:下载地址
jsoup
:下载地址
在导入json的时候,需要把压缩包下所有的jar包都导入进去才行。
/**
* Created by Aiden on 2015/12/9.
*/
import net.sf.json.JSONArray;
import net.sf.json.JSONObject;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
// 爬取百度图片
public class doBaidu {
public synchronized static void Geturl(String key, int max) { // key为关键词,max作为爬取的页数
FileWriter fileWriter = null; // 写入文件
try {
fileWriter = new FileWriter(new File("img.txt")); // 写入文件
} catch (IOException e) {
e.printStackTrace();
}
String base = "http://image.baidu.com/search/avatarjson?tn=resultjsonavatarnew&ie=utf-8&word