爬取豆瓣https://movie.douban.com/top250,翻页,图片

如何爬取豆瓣https://movie.douban.com/top250

操作步骤加思考:
①所需要的模块

import requests
from lxml import etree
# pandas用来保存为csv的
import pandas as pd
# os所需的文件夹的下载
import os
# 获取其页面代码

②获取页面代码,因为豆瓣有反爬虫,加上headers

def get_html(url):
    headers={
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

    try:
        html=requests.get(url,headers=headers)
        # 这是判断可否爬取的成功,等于200既成功
        html.encoding=html.apparent_encoding
        if html.status_code ==  200:
            print("成功获取源代码")
    # 将获取源代码的错误的找出,并提示
    except Exception as e:
        print("获取源代码失败:%s"%e)
    # 返回输出其内容
    return html.text

③将页面的内容获取

def parse_html(html):
    # 将imgurl,movie装一个列表中,时其完整
    imgurls=[]
    movies=[]
    # etree的一种方法
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值