java爬虫简单爬取网站img+css+js

最新推荐文章于 2024-04-30 15:19:58 发布

原创

最新推荐文章于 2024-04-30 15:19:58 发布 · 1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#java #爬虫

首先，我们讲述一下爬虫的基本原理。爬虫的基本原理很简单，就是利用程序访问互联网，然后将数据保存到本地中。我们都知道，互联网提供的服务大多数是以网站的形式提供的。我们需要的数据一般都是从网站中获取的，如电商网站商品信息、商品的评论、微博的信息等。爬虫和我们手动将看到的数据复制粘贴下来是类似的，只是获取大量的数据靠人工显然不太可能。因此，需要我们使用工具来帮助获取知识。使用程序编写爬虫就是使用程序编写一些网络访问的规则，将我们的目标数据保存下来。接下来，让我们开始从头搭建一个爬虫的案例。
创建Maven项目
在这里插入图片描述
导入pom文件依赖

 <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
      <scope>test</scope>
    </dependency>
    <dependency>
      <!-- jsoup HTML parser library @ https://jsoup.org/ -->
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.12.1</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/com.squareup.okhttp3/okhttp -->
    <dependency>
      <groupId>com.squareup.okhttp3</groupId>
      <artifactId>okhttp</artifactId>
      <version>3.10.0</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/com.squareup.okio/okio -->
    <dependency>
      <groupId>com.squareup.okio</groupId>
      <artifactId>okio</artifactId>
      <version>2.0.0</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->

最低0.47元/天解锁文章