Java爬虫 学习记录1

Java爬虫 学习记录1

1.pom依赖:
在这里插入图片描述

2.编写test代码:
这里是以自如网站为例子

package cn.kgc.crawel.test;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import sun.net.www.http.HttpClient;

import java.io.IOException;

/**
 * Created by jiang on 6/20/21 11:32 AM
 */
public class CrawellerTest {
    public static void main(String[] args) throws IOException {
        //1.打开一个浏览器,创建httpclient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();

        //2.输入那个网址,发起get请求创建HttpGet对象
        HttpGet httpGet = new HttpGet("https://www.ziroom.com/?utm_source=pinzhuan&utm_medium=baidu&utm_term=ziru&utm_content=biaoti&utm_campaign=pinzhuan");
        //3.回车发起请求,返回响应,使用HttpClient对象发起请求
        CloseableHttpResponse response=httpClient.execute(httpGet);
        //4.解析响应获取数据
        //判断状态码是否是200
        if(response.getStatusLine().getStatusCode()==200){
            HttpEntity httpEntity=response.getEntity();
            String content = EntityUtils.toString(httpEntity,"utf8");
            System.out.println(content);
        }

    }
}

3.控制台查看效果
在这里插入图片描述

总结:通过httpclient自动抓取到自如的页面结构并打印在控制台,如果创建HttpClients对象时报错,可以使用idea右侧maven按钮先clean在install即可解决问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值