爬虫之路——Day3

本文介绍了一种使用Python爬取豆瓣电影推荐数据的方法,并将数据存储到MongoDB中。通过循环遍历不同的电影标签,抓取每一页推荐的电影信息,包括评分、标题、链接、封面及是否为新片。
部署运行你感兴趣的模型镜像

用来导入豆瓣主页所有的推荐电影


import requests
import pymongo
import re
import time



connection = pymongo.MongoClient()
att = connection.douban
tags = {'热门', '最新', '经典', '可播放', '豆瓣高分', '冷门佳片', '华语', '欧美', '韩国', '日本', '动作', '喜剧', '爱情', '科幻', '悬疑', '恐怖', '文艺'}
i = 0
for tag in tags:
    start = time.time()
    i += 1
    url = "https://movie.douban.com/j/search_subjects"
    page_limit = 20
    page_start = 0

    params = {
        'type': 'movie',
        'tag': tag,
        'sort': 'recommend',
        'page_limit': str(page_limit),
        'page_start': str(page_start)
    }
    response = requests.get(url, params=params)
    data = response.text

    post_info = att[tag]

    while(True):
        params = {
                'type': 'movie',
                'tag': tag,
                'sort': 'recommend',
                'page_limit': str(page_limit),
                'page_start': str(page_start)
        }
        response = requests.get(url, params=params)
        if(response.text == '{"subjects":[]}'):
            break
        data = response.text

        movies = re.findall('"rate":"(.*?)",.*?,"title":"(.*?)","url":"(.*?)",.*?,"cover":"(.*?)",.*?,.*?,"is_new":(.*?)}', data)

        for movie in movies:
            #a = movie[2].replace('\\\\', '')
            tmp = {
                    "rate": movie[0],
                    "title": movie[1],
                    "url": movie[2],
                    "cover": movie[3],
                    "is_new": movie[4]
            }
            post_info.insert(tmp)

        page_start += 20
        time.sleep(1)

    end = time.time()
    print(tag + ":   " + str(end - start) + '\n')

#     反斜杠的处理     http://www.jb51.net/article/19740.htm


您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

本资源集提供了针对小型无人机六自由度非线性动力学模型的MATLAB仿真环境,适用于多个版本(如2014a、2019b、2024b)。该模型完整描述了飞行器在三维空间中的六个独立运动状态:绕三个坐标轴的旋转(滚转、俯仰、偏航)与沿三个坐标轴的平移(前后、左右、升降)。建模过程严格依据牛顿-欧拉方程,综合考虑了重力、气动力、推进力及其产生的力矩对机体运动的影响,涉及矢量运算与常微分方程求解等数学方法。 代码采用模块化与参数化设计,使用者可便捷地调整飞行器的结构参数(包括几何尺寸、质量特性、惯性张量等)以匹配不同机型。程序结构清晰,关键步骤配有详细说明,便于理解模型构建逻辑与仿真流程。随附的示例数据集可直接加载运行,用户可通过修改参数观察飞行状态的动态响应,从而深化对无人机非线性动力学特性的认识。 本材料主要面向具备一定数学与编程基础的高校学生,尤其适合计算机、电子信息工程、自动化及相关专业人员在课程项目、专题研究或毕业设计中使用。通过该仿真环境,学习者能够将理论知识与数值实践相结合,掌握无人机系统建模、仿真与分析的基本技能,为后续从事飞行器控制、系统仿真等领域的研究或开发工作奠定基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值