风变作业-爬取豆瓣top250的电影

这是一篇介绍使用Python进行爬虫实践的博客,作者通过分享如何爬取豆瓣电影Top250的数据,展示了基础的网络爬虫技术。过程中遇到了一些挑战,但最终成功获取了电影列表的相关信息。

入门级的作业吧……费了好长时间

import requests
# 引用BeautifulSoup库
from bs4 import BeautifulSoup

#请求头
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4302.0 Safari/537.36'}

# 获取网址
addresses = []
li=[]
j=0
while j<10:
	address_ = 'https://movie.douban.com/top250?start='+str(j*25)+'&filter='
    address = requests.get(address_,headers=headers)
    
    addresses.append(address_)
    j+=1
 #获取数据 
    all_ = BeautifulSoup(address.text,'html.parser')
    #最小父标签
    all_books = all_.find_all('div', class_="item")

    #序号,名字,评分,推荐语,链接
    for i in all_books:
        #print(i.text)
        num = i.find('em',class_="").text
        name = i.find('span', class_="title").text
        star = i.find('span', class_="rating_num").text
        url = i.find('a')['href']
        #判断comment
        try:
            comment = i.find('span', class_="inq").text
        
        except Exception: 
            comment='这部电影没推荐语哦'
        b='排序:{},名称:{},评分:{},推荐语:{} 链接:{}'.format(num,name,star,comment,url)
        print(b)
        li.append(b)
#print('所有网址:',addresses,end='\n')
#print(li)    

运行结果

排序:1,名称:肖申克的救赎,评分:9.7,推荐语:希望让人自由。链接:https://movie.douban.com/subject/1292052/
……
排序:220,名称:寄生虫,评分:8.7,推荐语:这部电影没推荐语哦 链接:https://movie.douban.com/subject/27010768/
……
排序:250,名称:网络谜踪,评分:8.6,推荐语:这部电影没推荐语哦 链接:https://movie.douban.com/subject/27615441/
评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值