java写爬虫

本文提供了一个使用Java和Jsoup库实现的简单爬虫示例,该爬虫用于抓取牛客网特定页面上的问题标题和内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.8.3</version>
</dependency>

package com.tps.common;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;

/**
* (爬虫)
*
* @author Sum
* @date 2017-09-29 9:13
*/
public class Robot {

public static void getQuestion(int page){
// 定义即将访问的链接
String url = "https://www.nowcoder.com/ta/review-java/review?page="+page;
// 定义一个字符串用来存储网页内容
String result = "";
// 定义一个缓冲字符输入流
BufferedReader in = null;
try
{
// string转成url对象
URL realUrl = new URL(url);
// 初始化一个链接到那个url的连接
URLConnection connection = realUrl.openConnection();
// 开始实际的连接
connection.connect();
// 初始化 BufferedReader输入流来读取URL的响应
in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
// 用来临时存储抓取到的每一行的数据
String line;
while ((line = in.readLine()) != null)
{
// 遍历抓取到的每一行并将其存储到result里面
result += line + "\n";
}
} catch (Exception e)
{
System.out.println("发送GET请求出现异常!" + e);
e.printStackTrace();
} // 使用finally来关闭输入流
finally
{
try
{
if (in != null)
{
in.close();
}
} catch (Exception e2)
{
e2.printStackTrace();
}
}
// System.out.println(result);

Document doc = Jsoup.parse(result);

Elements title = doc.getElementsByClass("final-question");
System.out.println(page+"."+title.get(0).ownText());

Elements question = doc.getElementsByClass("design-answer-box");
System.out.println(question.get(0).ownText());

System.out.println(question.get(0));


}

public static void main(String[] args)
{
/*for(int i=1;i<120;i++){
getQuestion(i);
}*/
getQuestion(13);
}
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值