爬虫是一个非常实用的技术,每种语言都有相应的实现方式。这里给一个JAVA的实例。后面主要以python为主,毕竟是业内比较认可的爬虫行业老大。
爬虫主要分为两个部分,一个是提取,一个是解析。提取也就是发网络请求数据,java里可以用URLCollection,HttpClient,RestTemplate,okhttp等。我采用的是RestTempate,他是spring的东西,也比较好用。解析html的是Jsoup。
这里以爬取电影天堂中首页最新的电影和其相应的下载链接。
目标如下:
查看html如下:
代码如下:
结果好下: