一、思路
1.第一页的网址:http://www.mtime.com/top/movie/top100/,
第二页网址:http://www.mtime.com/top/movie/top100/index-2.html
两者比较没有规律,但从后面页的网址开始就有规律,所以考虑分成两段提取
2.在匹配评分的时候发现re匹配不出来(应该是个人能力问题),最终通过Xpath匹配
3.但在52名的电影没有评分,故在抓取评分的时候放了try,不然会报一个超出索引范围的错:
4.对输出稍微格式化了一个,但还是有不如意的地方
二、代码
import urllib.request,re
from lxml import etree
for j in range(10):
print('正在爬取第 %d 页' %int(j+1),'......')
if j == 0:
url = "http://www.mtime.com/top/movie/top100/"
date = urllib.request.urlopen(