#!/usr/bin/env python
-- coding: utf-8 --
@Time : 2019/6/22 20:59
@Author : LJ
@Site :
@File : db_playing_movie.py
@Software: PyCharm
‘’’
这篇主要是获取豆瓣网正在热映电影网的电影全部信息
‘’’
import re
import requests
from requests import RequestException
from demo01.util import buid_proxy
from urllib.parse import urlencode
from lxml import etree
import json
import time
import codecs
import os
proxies=buid_proxy()
headers={
“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36”,
“Referer”:“https://movie.douban.com/”
#构造请求头是伪造成成浏览器,在有的反爬虫网站这个时候可以添加Cookie,Connection是非常有必要的
}
#第一步,获取豆瓣网的电影信息
def get_one_page(url):
res=requests.get(url,proxies=proxies,headers=headers)
if res.status_code==200:
html=res.text
return html
return None
def parse_one_page(html):
content=etree.HTML(str(html))
data=content.xpath(’//div[@id=“nowplaying”]/div[2]/ul/li’)
i=0
#获取这页所有电影的信息,在这里我们需要的有四个信息,但是能用的是三个
for items in data:
#print(items)
movie_info=[]
while i <len(data)-1:
movie_id=items.xpath(’//li/@id’)[i]
movie_name=items.xpath(’//li/@data-title’)[i]
movie_detail_url=items.xpath(’//li/ul/li[1]/a/@href’)[i]
movie_img_url=items.xpath(’//li/ul/li[1]/a/im