如何爬取豆瓣https://movie.douban.com/top250
操作步骤加思考:
①所需要的模块
import requests
from lxml import etree
# pandas用来保存为csv的
import pandas as pd
# os所需的文件夹的下载
import os
# 获取其页面代码
②获取页面代码,因为豆瓣有反爬虫,加上headers
def get_html(url):
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}
try:
html=requests.get(url,headers=headers)
# 这是判断可否爬取的成功,等于200既成功
html.encoding=html.apparent_encoding
if html.status_code == 200:
print("成功获取源代码")
# 将获取源代码的错误的找出,并提示
except Exception as e:
print("获取源代码失败:%s"%e)
# 返回输出其内容
return html.text
③将页面的内容获取
def parse_html(html):
# 将imgurl,movie装一个列表中,时其完整
imgurls=[]
movies=[]
# etree的一种方法