第一步,分析网页结构,查看网页源代码,找到我们需要的信息所在位置。
经过分析,电影信息全都集中在class=“el-card item m-t is-hover-shadow”的div标签里。
divs = et.xpath('//div[@class="el-card item m-t is-hover-shadow"]')
然后,遍历每个标签,找到每个标签里面的电影信息,包括封面、名字、类别等等
for div in divs:
cover = div.xpath('./div/div/div/a/img/@src')
name = div.xpath('./div/div/div/a/h2/text()')
category = div.xpath('./div/div/div/div/button/span/text()')
country = div.xpath('./div/div/div/div/span/text()')
time = div.xpath('./div/div/div/div/span/text()')
number = div.xpath('./div/div/div/p/text()')
info = {
'cover':cover[0],
'name':name[0],
'category':'-'.join(category),