python爬去豆瓣网热映电影全部信息以及其海报

豆瓣热映电影信息抓取

最新推荐文章于 2024-05-02 07:00:29 发布

原创

最新推荐文章于 2024-05-02 07:00:29 发布 · 483 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#豆瓣

#!/usr/bin/env python

-- coding: utf-8 --

@Time : 2019/6/22 20:59

@Author : LJ

@Site :

@File : db_playing_movie.py

@Software: PyCharm

‘’’
这篇主要是获取豆瓣网正在热映电影网的电影全部信息
‘’’
import re
import requests
from requests import RequestException
from demo01.util import buid_proxy
from urllib.parse import urlencode
from lxml import etree
import json
import time
import codecs
import os
proxies=buid_proxy()
headers={
“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36”,
“Referer”:“https://movie.douban.com/”
#构造请求头是伪造成成浏览器，在有的反爬虫网站这个时候可以添加Cookie，Connection是非常有必要的
}

#第一步，获取豆瓣网的电影信息
def get_one_page(url):
res=requests.get(url,proxies=proxies,headers=headers)
if res.status_code==200:
html=res.text
return html
return None

def parse_one_page(html):
content=etree.HTML(str(html))
data=content.xpath(’//div[@id=“nowplaying”]/div[2]/ul/li’)
i=0
#获取这页所有电影的信息，在这里我们需要的有四个信息，但是能用的是三个
for items in data:
#print(items)
movie_info=[]
while i <len(data)-1:
movie_id=items.xpath(’//li/@id’)[i]
movie_name=items.xpath(’//li/@data-title’)[i]
movie_detail_url=items.xpath(’//li/ul/li[1]/a/@href’)[i]
movie_img_url=items.xpa