豆瓣电影爬虫编写教程

最新推荐文章于 2024-06-30 11:55:03 发布

weixin_30569153

最新推荐文章于 2024-06-30 11:55:03 发布

阅读量212

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫

原文链接：http://www.cnblogs.com/secsafe/p/11235126.html

本文介绍了一种使用Python的requests库和lxml库抓取豆瓣网站当前正在上映的电影信息的方法。通过解析网页源代码，可以获取每部电影的标题、评分、时长、地区、导演、演员及缩略图等详细信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import  requests

from lxml import etree

headers ={
    'User-Agent':"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",
    'Referer':"https://movie.douban.com/"

}
url="https://movie.douban.com/cinema/nowplaying/shijiazhuang/"
response = requests.get(url,headers=headers)
text = response.text

html = etree.HTML(text)
ul = html.xpath("//ul[@class='lists']")[0]
#print(etree.tostring(ul,encoding='utf-8').decode("utf-8"))
lis = ul.xpath("./li")
movies = []
for li in lis:
        #print(etree.tostring(li,encoding='utf-8').decode("utf-8"))
    title = li.xpath("@data-title") [0]
    score = li.xpath("@data-score")[0]
    duration = li.xpath("@data-duration")[0]
    region = li.xpath("@data-region")[0]
    director = li.xpath("@data-director")[0]
    actors = li.xpath("@data-actors")[0]
    thumbnail = li.xpath(".//img/@src")[0]
    movie = {
        'title':title,
        'score':score,
        'duration':duration,
        'region':region,
        'director':director,
        'actors':actors,
        'thumbnail':thumbnail
    }
    movies.append(movie)

print(movies)