爬取本地网页评分大于3的代码

本文介绍了一个使用Python中的BeautifulSoup库进行网页数据爬取的例子。通过解析HTML文件,爬虫可以抓取图片链接、段落文本、类别信息及评分,并筛选出评分高于3的内容。该文适用于希望了解如何利用BeautifulSoup进行数据抓取的读者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

from bs4 import BeautifulSoup

info =[]

with open('D:/BaiduYunDownload/Python实战::四周实现爬虫系统/课程资料/课程源码及作业参考答案/week1/1_2/1_2code_of_video/web/new_index.html', 'r') as some_data:
    Soup = BeautifulSoup(some_data, 'lxml')
    image = Soup.select('body > div.main-content > ul > li > img')
    somepagraph = Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')
    cate = Soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info')
    score = Soup.select('body > div.main-content > ul > li > div.rate > span')

for imageone, somepagraphone, cateone, scoreone in zip(image, somepagraph, cate, score):
    data = {
        'image':imageone.get('src'),
        #对图片的爬取
        'somepagraph':somepagraphone.get_text(),
        'cate':list(cateone.stripped_strings),
        #对一对多的爬取
        'score': scoreone.get_text()
    }

    info.append(data)

for i in info:
    if float(i['score']) > 3:
        print(i['somepagraph'],':', i['score'])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值