使用Python爬虫获取电影信息

此博客讲述了如何用python爬虫爬取电影信息。

首先要导入必要的数据库reques库和etree库。

import requests  # 网络请求模块
from lxml import etree  # 数据解析模块

请求头信息,把程序伪装成浏览器。

headers = {
    'User-Agent':
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.5845.97 Safari/537.36 Core/1.116.467.400 QQBrowser/13.4.6232.400'
}

功能函数,出去第一个字符串

def get_first_text(list):
    try:
        return list[0].strip()  # 返回第一个字符串,除去两端的空格
    except:
        return ""  # 返回空字符串

爬取信息,这需要用到pandas库

df = pd.DataFrame(columns=["序号", "标题", "链接", "导演", "评分", "评价人数", "简介"])

# 使用列表生成式表示10个页面的地址
urls = ['https://movie.douban.com/top250?start={}&filter='.format(str(i * 25)) for i in range(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值