基于Webmagic的Java爬虫(二)
一、目标:
获取(电影天堂)电影详情页链接,再获取电影名字和下载地址,并在控制台输出。
二、步骤:
- 爬取(电影天堂:https://mp.youkuaiyun.com) 首页电影详情的所有链接。
要爬取的内容:

- 按 F12 查看页面的源码,写出电影详情页正则://div[@class=‘co_content4’]/ul/a[@href]

- 点击电影详情链接,观察地址栏,写出电影详情页的正则,作为判断的依据。正则为:http://www.dytt8.net/html/gndy/\w{4}/\d{8}/\d{5}.html

- 查看电影详情页网页源码,写出电影名称和电影下载链接的正则:
电影名称正则://div[@class=‘title_all’]/h1/font/text()
电影下载链接正则://a[starts-with(@href,‘ftp’)]/text()


三、代码:
package ang.one;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us

本文介绍如何利用Webmagic Java爬虫框架,爬取电影天堂网站的电影详情页,包括电影名称和下载链接。首先确定目标,然后解析首页获取电影详情页链接,接着分析电影详情页正则表达式,最后展示实现代码和运行结果。
最低0.47元/天 解锁文章
3151

被折叠的 条评论
为什么被折叠?



