偷师高手！用 Java 实现一个爬虫，程序员的快乐回来了！

本文链接：https://blog.youkuaiyun.com/qq_35971258/article/details/144635924

前言

爬虫，听起来是不是很神秘又有趣？程序员的日常往往是面对无数的代码和框架，但当你突然间开始写一个爬虫，把数据从互联网上抓取下来时，简直就是一场“程序员的冒险”！今天，我们就一起来学习如何使用 Java 来实现一个简单的爬虫，并通过它去“偷”一些网络上的数据。放心，这只是一个合法的爬虫应用哦！

一、爬虫是什么？

爬虫（Crawler）是一种自动化程序，它能够模拟浏览器访问网页，并从中抓取信息。它们可以用来抓取新闻、商品信息、社交媒体内容等。简单来说，爬虫就是通过自动化的方式抓取互联网中的数据。

Java 作为一种强大的编程语言，完全可以胜任爬虫的编写。今天，我们将用 Java 的标准库和一些流行的开源库来实现一个简单的网页爬虫。

二、我们的爬虫任务

我们这次的目标是：爬取一个网页上的所有链接。虽然只是一个简单的爬虫，但它能够让你对爬虫的基本工作原理有一个清晰的了解。

三、准备工作：添加依赖

为了让爬虫更加高效和简洁，我们将使用两个流行的 Java 库：

Jsoup：这是一个非常强大的 HTML 解析库，它可以用来轻松地抓取和解析网页数据。
HttpClient：用来发送 HTTP 请求，获取网页内容。

我们首先需要在 pom.xml 文件中添加相关依赖：

<dependencies>
    <!-- Jsoup库，用于解析网页 -->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.15.3</version>
    </dependency>

    <!-- HttpClient库，用于发送HTTP请求 -->
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
        <version>4.5.13</version>
    </dependency>
</dependencies>

四、编写爬虫代码

接下来，让我们开始编写 Java 爬虫的代码。我们将编写一个简单的类，负责抓取网页并提取页面中的所有链接。

1. 发送 HTTP 请求并获取网页内容

首先，我们需要使用 HttpClient 来向目标网页发送请求，并获取网页的 HTML 内容。

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.CloseableHttpResponse;
import org.apache.http.util.EntityUtils;

public class SimpleCrawler {
    
    public static String fetchPage(String url) {
        String htmlContent = "";
        try (CloseableHttpClient httpClient = HttpClients.createDefault()) {
            HttpGet request = new HttpGet(url);
            try (CloseableHttpResponse response = httpClient.execute(request)) {
                HttpEntity entity = response.getEntity();
                htmlContent = EntityUtils.toString(entity);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return htmlContent;
    }

    public static void main(String[] args) {
        String url = "https://example.com";
        String pageContent = fetchPage(url);
        System.out.println(pageContent);
    }
}

在这个代码片段中，我们定义了一个 fetchPage 方法，发送 GET 请求到指定的 URL，并将响应的 HTML 内容存储在 htmlContent 变量中。

2. 解析网页内容并提取链接

接下来，我们将使用 Jsoup 库来解析网页内容，并提取其中的所有链接。Jsoup 提供了非常简洁的 API，可以非常方便地从 HTML 中提取出各种元素。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class SimpleCrawler {
    
    public static String fetchPage(String url) {
        String htmlContent = "";
        try (CloseableHttpClient httpClient = HttpClients.createDefault()) {
            HttpGet request = new HttpGet(url);
            try (CloseableHttpResponse response = httpClient.execute(request)) {
                HttpEntity entity = response.getEntity();
                htmlContent = EntityUtils.toString(entity);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return htmlContent;
    }

    public static void extractLinks(String htmlContent) {
        Document document = Jsoup.parse(htmlContent);
        Elements links = document.select("a[href]");  // 获取所有的<a>标签中的链接
        for (org.jsoup.nodes.Element link : links) {
            System.out.println("Link: " + link.attr("href"));
        }
    }

    public static void main(String[] args) {
        String url = "https://example.com";
        String pageContent = fetchPage(url);
        extractLinks(pageContent);
    }
}

在这个示例中，我们使用 Jsoup 的 parse 方法将网页内容解析成一个 Document 对象，然后使用 select("a[href]") 选择器获取所有的链接（即 <a> 标签中的 href 属性）。

3. 运行爬虫并抓取链接

当你运行这个程序时，它会打印出网页中的所有链接。通过这种方式，你可以将爬虫的功能扩展到抓取更多信息，如图片链接、文章内容等。

五、爬虫的防封机制：让你的爬虫更加健壮

虽然我们写了一个简单的爬虫，但在实际应用中，很多网站会对爬虫进行限制，比如：

反爬虫机制：例如，使用验证码、IP 限制等。
用户代理（User-Agent）：很多网站会检查请求的 User-Agent，如果它看起来像是来自浏览器，爬虫才会被允许访问。

为了绕过这些限制，你可以在请求头中添加一些伪装，让爬虫看起来像是普通的浏览器：

import org.apache.http.impl.client.HttpClients;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.CloseableHttpResponse;
import org.apache.http.entity.StringEntity;
import org.apache.http.util.EntityUtils;

public class SimpleCrawler {
    public static String fetchPage(String url) {
        String htmlContent = "";
        try (CloseableHttpClient httpClient = HttpClients.createDefault()) {
            HttpGet request = new HttpGet(url);
            // 设置一个浏览器的User-Agent
            request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36");
            
            try (CloseableHttpResponse response = httpClient.execute(request)) {
                htmlContent = EntityUtils.toString(response.getEntity());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return htmlContent;
    }
}