用python爬取某站妹子图,竟然发现没有一个比我女朋友漂亮!

本文介绍了如何使用Python爬虫技术从特定网站抓取妹子图。通过分析网页源码,作者发现了获取高清图片链接的方法,并揭示了网站的分页加载机制。虽然网页禁止鼠标右键,但通过Ctrl+U可以查看源代码,找到图片链接。在首页和详情页都是静态加载的情况下,作者展示了如何通过更改URL参数实现翻页。最后,提供了爬取代码的关键部分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者: 锋小刀
微信搜索【Python与Excel之交】关注我的公众号查看更多内容
镇文图:

目标网址:

https://mm.enterdesk.com/dalumeinv/1.html

进入网站后下拉即可看到以下内容:
在这里插入图片描述
点击任意图片,进入图片详情页,里面为一组图片,包含大图和缩略图:
在这里插入图片描述
此网页禁止鼠标右键,按ctrl+u进行查看网页源代码,发现图片链接可在网页源代码中获取;每张图片有两条链接,对比两条链接发现其中一条多了参数_360_360,而没有此参数的链接为高清原图,另一条为标清图!
在这里插入图片描述
详情页是由首页链接进入的,我们再退到首页,按ctrl+u进行查看网页源代码;发现网页源代码中存在进入详情页的链接,由此可推断首页和详情页都为静态加载的网页!
在这里插入图片描述
在首页下拉网页,发现其会不断加载数据,但网址却没有发生变化:
在这里插入图片描述
但单独点击下方翻页操作,网址会发生变化:
在这里插入图片描述
由此可见,进行翻页操作我们只需要更改网址的参数即可:

https://mm.enterdesk.com/dalumeinv/1.html
https://mm.enterdesk.com/dalumeinv/2.html
https://mm.enterdesk.com/dalumeinv/3.html

爬取代码基本和以前所讲解的差不多,本文仅给出核心代码:

def main(html_url):	# 传入首页url
    response = get_response(html_url) # 请求函数接收首页url并请求数据
    urls = re.findall('<a href="(.*?)" target="_blank">.*?</a>', response.text)[31:47]	# 提取详情页url
    for link in urls:
        response_ = get_response(link)# 请求函数接收详情页url并请求数据
        image_url = re.findall('src="(https://up.enterdesk.com/edpic/.*?)"', response_.text)[1:] # 提取图片url
        url_data(image_url)	# 返回图片url

urls这一行[31:47]以及image_url这一行之所以用进行切片,是因为正则表达式提取的内容包含其它一些链接,所以需要去除:
在这里插入图片描述
图展:
在这里插入图片描述

本文图片以及文本仅供学习、交流使用,不做商业用途,如有问题请及时联系我们以作处理。提供的结论仅供参考,还请独立思考。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值