【爬虫Practice2】爬取豆瓣高分电影


  这一节是爬取豆瓣高分电影排行榜,具体参数可以改动,比如什么种类电影、年份等,观察一下request的参数就可以了。

爬取豆瓣高分电影

import requests
import json
import re
from fake_useragent import UserAgent

if __name__ =="__main__":
    get_url = 'https://movie.douban.com/j/new_search_subjects?'
    params = {
        'sort': 'S',
        'range': '0,10',
        'tags': '电影',
        'start': '0',
        'genres': '剧情',
        'year_range': '2010,2019'
    }
    user = UserAgent()
    headers = {
        'User-Agent' : user.random
    }
    response = requests.get(url=get_url, params=params, headers=headers)
    list_data = response.text
    fp = open('./filmtop.json', 'w', encoding='utf-8')
    json.dump(fp, list_data, ensure_ascii=False)
    print("OK!!!")

爬取过程可能存在的问题

报错信息:在获取豆瓣高分电影时IP被封

# IP请求次数过多 请登录豆瓣

解决方法:获取伪造UA的库, 上面的代码中已经改进过。

$ pip install fake-useragent   #终端输入的pip install直接下载到当前文件夹 要复制到c盘的sites-pakage下面
from fake_useragent import UserAgent 
ua = UserAgent()
ua.random
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值