java版本----简单爬虫

博客介绍了爬虫技术,提及Java和Python两种语言实现。Java中提取数据可用URLCollection等,作者采用RestTemplate,解析用Jsoup,并给出爬取电影天堂首页电影及下载链接的实例。同时表示后续主要以Python为主,还给出项目地址。

爬虫是一个非常实用的技术,每种语言都有相应的实现方式。这里给一个JAVA的实例。后面主要以python为主,毕竟是业内比较认可的爬虫行业老大。

爬虫主要分为两个部分,一个是提取,一个是解析。提取也就是发网络请求数据,java里可以用URLCollection,HttpClient,RestTemplate,okhttp等。我采用的是RestTempate,他是spring的东西,也比较好用。解析html的是Jsoup。

这里以爬取电影天堂中首页最新的电影和其相应的下载链接。

目标如下:

查看html如下:

http://cdn2.fullmile.tech/blog/images/DYTT_4.png

代码如下:

http://cdn2.fullmile.tech/blog/images/DYTT_1.png

 

结果好下:

http://cdn2.fullmile.tech/blog/images/DYTT_1.png

项目地址见:http://www.storm-spirit.cn/

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值