Java爬虫~~爬虫伪代码

本文简要介绍了如何使用伪代码指导爬取优快云数据的基本流程,包括缓存、DOM解析及网络链接工具的使用。特别强调了递归调用可能导致的栈溢出问题,并建议进行优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前一直有个同事想让我教教他怎么把csdn上的数据爬下来的,我在这里就简单的说一下~~话说做爬虫我也不是专业的~~业余的~~有什么问题帮我指正就好~~233333


为什么是伪代码呢?就是给大家把原理讲讲~~真实代码我就不在这里写了~~大家自己琢磨去吧~~


需要如下几个工具
1、缓存:我采用的是redis~~经常做后台习惯用了~~23333
2、dom解析工具
3、网络链接工具

话说后面两个我直接就用jsoup了


我个人的话是先做了一个缓存url方法
类的样子大概是这样的

//这也可以作为一个入口
save (url){
    if(redis.get(url) 存在){
        return
    }else{
        redis.put(url);
        savedate(url);
    }
}

又做了一个下载数据的

savedate(url){
    dom = 读取(url);
    <!-- 简单的插入一个html注释提示一下 
    如果天真的以为这样就能下载csdn上的数据就是真的太年轻呢~
    首先我做了一步处理
    User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/600.1.3 (KHTML, like Gecko) Version/8.0 Mobile/12A4345d Safari/600.1.4
    给user-agent添加上~~大家如果不知道这是什么的~~百度一下2333
    -->
    dom.存储你想存的数据();
    List = dom.读取(<a href>);

    for(String url:list){
        //递归调用
        save(url);
    }
}

这是个最简单的小栗子
但是呢~~你如果真用这个去写个爬虫的话~~
额~~为什么呢~~如果这么递归下去~~肯定栈溢出了~~
所以还有好多工作要做~~2333333

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二蛋和他的大花

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值