抓取某电影网TOP100
1.分析源码,以便于写正则表达式
这里是网页关键部分的源码:
然后针对它写正则表达式:
pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a' + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>' + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
然后完善:
import requests from