提前声明,这不是一个好的例子,所以不要向我学习。让我先冷静一下!
OK,开始,今天我们开始从下面链接爬虫。
http://www.imdb.com/search/title?count=100&release_date=2016,2016&title_
type=feature。打开页面如下:总共有100页,包含电影1万多部。我只爬取了2000个。(PS:等我截下面这张图时顺序已经和原来的不一样了)
这个页面已经显示海报了,但是爬出来之后图片太小,也太模糊,不能满足我的需求,因此继续爬出电影主页链接。进去之后页面如下,海报大小质量还算可以基本能满足我的要求,如下图。因此第一步就把爬取电影主页链接。(有没有看见妹子在盯着你)