一、什么是网络爬虫?
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
二、简单代码示例
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.nio.charset.Charset;
public class WebSpiderTest {
public static void main(String[] args) throws Exception {
URL url = new URL("https://www.cnblogs.com/javaee6/p/3714719.html");
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName("utf-8")));
String readLine = null;
while ((readLine = reader.readLine()) != null) {
System.out.println(readLine);
}
}
}