Python练习013

该博客介绍了如何利用Python的正则表达式、BeautifulSoup和XPath三种方式来爬取糗图百科的热门图片。首先创建qiutu文件夹,然后分别通过三种方法解析HTML页面,提取图片链接,下载并保存图片到指定路径,最后打印出已下载的图片名称。

题目:使用正则表达式、BeautifulSoup、Xpath三种方法爬取糗图百科的热门图片。
正则表达式:

import requests
import re
import os

if not os.path.exists("qiutu"):
    os.mkdir("qiutu")
url = "https://www.qiushibaike.com/imgrank/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit\
           /537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/\
           87.0.664.75'}
           
page_text = requests.get(url = url, headers = headers).text
s = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
img_src = re.findall(s,page_text,re.S)
for src in img_src:
    src = "https:"+src
    img = requests.get(url = src, headers = headers).content
    img_name = src.split('/')[-1]
    img_path = "qiutu/"+img_name
    with open(img_path,'wb') as f:
        f.write(img)
        print(img_name,"下载完成")

BeautifulSoup:

import requests
from bs4 import BeautifulSoup
import os

if not os.path.exists("qiutu"):
    os.mkdir("qiutu")
url = "https://www.qiushibaike.com/imgrank/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit\
           /537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/\
           87.0.664.75'}
           
page_text = requests.get(url = url, headers = headers).text
soup = BeautifulSoup(page_text,'lxml')
img_data = soup.select('.thumb > a > img')
srcs = []
for each_data in img_data:
    srcs.append(each_data['src'])
for src in srcs:
    src = "https:"+src
    img = requests.get(url = src, headers = headers).content
    img_name = src.split('/')[-1]
    img_path = "qiutu/"+img_name
    with open(img_path,'wb') as f:
        f.write(img)
        print(img_name,"下载完成")

Xpath

import requests
from lxml import etree
import os

if not os.path.exists("qiutu"):
    os.mkdir("qiutu")
url = "https://www.qiushibaike.com/imgrank/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit\
           /537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/\
           87.0.664.75'}
           
page_text = requests.get(url = url, headers = headers).text

tree = etree.HTML(page_text)
srcs = tree.xpath('/html/body//div[@class="thumb"]/a/img/@src')
for src in srcs:
    src = "https:"+src
    img = requests.get(url = src, headers = headers).content
    img_name = src.split('/')[-1]
    img_path = "qiutu/"+img_name
    with open(img_path,'wb') as f:
        f.write(img)
        print(img_name,"下载完成")
内容概要:本文围绕EKF SLAM(扩展卡尔曼滤波同步定位与地图构建)的性能展开多项对比实验研究,重点分析在稀疏与稠密landmark环境下、预测与更新步骤同时进行与非同时进行的情况下的系统性能差异,并进一步探讨EKF SLAM在有色噪声干扰下的鲁棒性表现。实验考虑了不确定性因素的影响,旨在评估不同条件下算法的定位精度与地图构建质量,为实际应用中EKF SLAM的优化提供依据。文档还提及多智能体系统在遭受DoS攻击下的弹性控制研究,但核心内容聚焦于SLAM算法的性能测试与分析。; 适合人群:具备一定机器人学、状态估计或自动驾驶基础知识的科研人员及工程技术人员,尤其是从事SLAM算法研究或应用开发的硕士、博士研究生和相关领域研发人员。; 使用场景及目标:①用于比较EKF SLAM在不同landmark密度下的性能表现;②分析预测与更新机制同步与否对滤波器稳定性与精度的影响;③评估系统在有色噪声等非理想观测条件下的适应能力,提升实际部署中的可靠性。; 阅读建议:建议结合MATLAB仿真代码进行实验复现,重点关注状态协方差传播、观测更新频率与噪声模型设置等关键环节,深入理解EKF SLAM在复杂环境下的行为特性。稀疏 landmark 与稠密 landmark 下 EKF SLAM 性能对比实验,预测更新同时进行与非同时进行对比 EKF SLAM 性能对比实验,EKF SLAM 在有色噪声下性能实验
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值