使用Jsoup完成网页爬虫

  • 网络爬虫
    含义就是自动抓取互联网信息的程序,
    jsoup可以通过url获取到html源文件,源文件中包含着网站数据,我们可以解析html源文件的数据来获取需要的信息,

  • 开发步骤
    1 引入jar包
    2 使用jsonp获取网页html源文件,转化成Document对象
    3 通过Document对象,获取需要的Element对象,
    4 获取Element对象中的数据,
    5 设置循坏自动爬取

public class CrawlerDemo {
   
    //爬虫
    public static void main(String[] args) {
   
        //使用jsoup获取网页中的html源文件,转化成Document对象,
        try {
   
            Document parse = Jsoup.parse(new URL("https://pic.netbian.com/"), 5000);
            System.out.println(parse); //输出的源文件数据信息
            //通过document对象来获取需要element对象
            Elements img = parse.getElementsByAttributeValue("alt", "天空小姐姐 黑色唯美裙子 厚涂画风 4k动漫壁纸");
            Elements title = parse.getElementsByAttributeValue("title", 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值