java写爬虫

最新推荐文章于 2025-08-20 15:04:37 发布

xiaohuige123

最新推荐文章于 2025-08-20 15:04:37 发布

阅读量181

点赞数 1

CC 4.0 BY-SA版权

分类专栏： java 文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xiaohuige123/article/details/79288296

java 专栏收录该内容

2 篇文章

订阅专栏

本文提供了一个使用Java和Jsoup库实现的简单爬虫示例，该爬虫用于抓取牛客网特定页面上的问题标题和内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

<dependency>

    <groupId>org.jsoup</groupId>

    <artifactId>jsoup</artifactId>

    <version>1.8.3</version>

</dependency>

package com.tps.common;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.select.Elements;

import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.net.URL;

import java.net.URLConnection;

/**

 * (爬虫)

*

 * @author Sum

 * @date 2017-09-29 9:13

*/

public class Robot {

    public static void getQuestion(int page){

        // 定义即将访问的链接

        String url = "https://www.nowcoder.com/ta/review-java/review?page="+page;

        // 定义一个字符串用来存储网页内容

        String result = "";

        // 定义一个缓冲字符输入流

        BufferedReader in = null;

try

{

            // 将string转成url对象

            URL realUrl = new URL(url);

            // 初始化一个链接到那个url的连接

            URLConnection connection = realUrl.openConnection();

            // 开始实际的连接

            connection.connect();

            // 初始化 BufferedReader输入流来读取URL的响应

            in = new BufferedReader(new InputStreamReader(connection.getInputStream()));

            // 用来临时存储抓取到的每一行的数据

            String line;

            while ((line = in.readLine()) != null)

{

                // 遍历抓取到的每一行并将其存储到result里面

                result += line + "\n";

}

        } catch (Exception e)

{

            System.out.println("发送GET请求出现异常！" + e);

            e.printStackTrace();

        } // 使用finally来关闭输入流

        finally

{

try

{

                if (in != null)

{

                    in.close();

}

            } catch (Exception e2)

{

                e2.printStackTrace();

}

}

       // System.out.println(result);

        Document doc = Jsoup.parse(result);

        Elements title = doc.getElementsByClass("final-question");

        System.out.println(page+"."+title.get(0).ownText());

        Elements question = doc.getElementsByClass("design-answer-box");

        System.out.println(question.get(0).ownText());

        System.out.println(question.get(0));

}

    public static void main(String[] args)

{

        /*for(int i=1;i<120;i++){

            getQuestion(i);

}*/

        getQuestion(13);

}

}

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。