python项目之爬虫爬取煎蛋jandan的妹子图-上

最新推荐文章于 2021-02-08 11:29:14 发布

原创

最新推荐文章于 2021-02-08 11:29:14 发布 · 1w 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍了一个Python爬虫项目，旨在爬取煎蛋网的妹子图。通过分析网页URL格式，作者发现每页妹子图包含缩略图和原图，并决定抓取原图。利用特定的class和target属性定位图片链接，最终将每一页的图片链接保存为TXT文件，为后续的图片存取做准备。

python项目之爬虫爬取煎蛋jandan的妹子图-上

抓取妹子图练练手。

网页url格式

http://jandan.net/ooxx/page-1777#comment
只需改变页码1777即可

分析页面源码发现妹子图有两个

一个是缩略图

<img src="http://ww1.sinaimg.cn/mw600/4bf31e43jw1f09htnzkh5j20dw0kumz0.jpg" /></p>

另一个是原图

<a href="http://ww1.sinaimg.cn/large/4bf31e43jw1f09htnzkh5j20dw0kumz0.jpg" target="_blank" class="view_img_link">[查看原图]</a>

这里我们抓取原图，使用class和target这个属性查找。

最终得到每一页的TXT文件，下篇是文件合并与图片存取。

源码如下

代理ip文件请自行查找:-D

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小六工作室

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python 爬虫爬取煎蛋网妹子图，我1T的硬盘装满了！

weixin_42500431的博客

08-01

1262

前言大家好，这里是「brucepk」爬虫系列教程。此系列教程以实例项目为材料进行分析，从项目中学习 python 爬虫，跟着我一起学习，每天进步一点点。煎蛋网站 image 很多朋友都反应学 python 语言太枯燥，学不进去，其实学语言最好的方法是自己用所学的语言做项目，在项目中学习语言的用法。今天给大家带来的项目是用 python3 爬取煎蛋网妹子的图片。图片质量还不错，我放...

Python爬虫之煎蛋网妹子图爬虫，解密图片链接加密方式

Hopetree的博客

03-19

8424

之前在鱼C论坛的时候，看到很多人都在用Python写爬虫爬煎蛋网的妹子图，当时我也写过，爬了很多的妹子图片。后来煎蛋网把妹子图的网页改进了，对图片的地址进行了加密，所以论坛里面的人经常有人问怎么请求的页面没有链接。这篇文章就来说一下煎蛋网OOXX妹子图的链接获取方式。首先说明一下，之前煎蛋网之所以增加了反爬虫机制，应该就是因为有太多的人去爬他们的网站了。爬虫频繁的访问网站会给网站带来压力，所以...

参与评论您还未登录，请先登录后发表或查看评论

python爬取煎蛋网

05-24

python爬取煎蛋网xxoo图自己写的小程序

python爬取妹子图片_利用爬虫爬取清纯妹子图片

weixin_39979617的博客

12-04

584

该楼层疑似违规已被系统折叠隐藏此楼查看此楼from bs4 import BeautifulSoupimport requestsimport timeimport osdef get_html(url):try:response=requests.get(url)response.encoding='gb2312'if response.status_code==200:print('成功连接...

python爬取妹子图

danke的博客

02-08

1万+

就不整那些了，直接上代码，大家复制即可（记得点赞）把lxml库和requests库下了就可以复制直接运行，保存在"4k图片爬取"文件夹里 #解析下载图片数据 import requests import os from lxml import etree # 创建文件夹 try: os.mkdir('./4k图片爬取') except Exception: print('文件已创建！') for i in range(2,172): i = str(i) #目

Python爬虫入门-利用requsets库爬取煎蛋网妹子图

suwenkun1126的博客

09-24

5019

其实之前是想利用煎蛋网来联系一下scrapy的ImagesPipeline爬取煎蛋网的妹子图并下载下来保存到本地，无奈这个ImagePipeline一点都不给面子一直报404错误，而且我还不知道问题出在哪里，所以一怒之下就不用框架了，直接爬一下。先来一张：从下图可以看出总的页数：在翻页的过程中URL中只有页数是在发生改变的，这个就比较好构建URL了，而且图片的信心在原始的请求里

python项目之爬虫爬取煎蛋jandan的妹子图-下

To be better

03-08

6944

python项目之爬虫爬取煎蛋jandan的妹子图-下函数如下读取全部单个txt组合成一个TXT文件，并把网址保存在all_imag_urls中 read_write_txt_to_main() 读取单个TXT件的网址 get_url() 每一个图片保存在本地 get_imags(all_imag_urls) 最终结果如下源码如下# coding:utf-8 #############

python爬虫知网实例-python爬取知网

weixin_37988176的博客

10-30

7878

python 爬取煎蛋ooxx妹子图

weixin_30650859的博客

10-15

9559

煎蛋网妹子图首页（http://jandan.net/ooxx），这个链接看起来怎么那么邪恶呢？经分析网站隐藏了图片地址。心一横，采取曲线路线，成功爬取大量妹子图~ 源码如下： 1 import requests 2 import re 3 import os 4 import base64 5 from urllib.request import urlretrieve...

python 爬取煎蛋网妹子的图片

killvoon的专栏

04-20

4326

昨晚跑完步，回家看了点小甲鱼的python视频，讲了点爬虫相关知识，于是今天兴致来了，尝试自己写写看，晚上再回去看看他是怎么实现的。写的过程中发现对于正则表达式这块真是个坑，很多时候都我都是将一些url转换成字符串进行处理的，尚需学习。源码如下： import urllib.request import os import re """ python version 3.3.5

Python 爬取煎蛋妹子图片

08-13

Python3入门级爬虫，爬取煎蛋图片，需要用到bs4、selenium、requests

Python 爬取妹子图

qq_37843782的博客

04-14

424

此贴仅供学习交流！

Python爬取妹子图

yuan_yang的博客

12-06

2742

python 爬取妹子图

susezj

01-18

1468

从爬取一张图开始，到爬取某系列图片，再到你想爬取多少页就爬取多少页，这几天真是挫折多多。代码看的出来写的比较糟糕，有很多能够优化处理的地方，等能力提高了，对python理解更深时再回来修改，继续加油！以下是完整的爬取代码： import requests import re def getHtmlText(url,header = {'User-Agent': 'Mozilla/5.0 (Wi...

python项目-爬取妹子图

weixin_40960364的博客

05-20

2830

最近在学爬虫，写了一个爬取妹子图片功能：自动下载妹子图，并自动命名网址：http://www.netbian.com/meinv/ #!/usr/bin/env python # -*- coding:utf-8 -*- # 爬取妹子图 # url：http://www.netbian.com/meinv/ # http://www.netbian.com/meinv/index_2.htm import urllib.request import urllib.parse from bs4 impo

Python爬虫----爬取妹子图片

u025318883的博客

03-13

4486

近来无事，或许是独自无聊，便产生以下程序我们的目的不是搞事，是合理利用资源各位，虎躯重要，合理食用环境：python 3.6 第三方库 requests BeautifulSoup4 推荐使用 Anaconda 集成包以下是全部代码 #coding=utf-8 # 作者：听风 import requests from bs4 import Beaut...

python爬取妹子图(小白也能看懂)

m0_48769739的博客

06-24

2273

我今天发现一个网站很好爬的，非常适合新手，我没有设置请求头什么的爬了很多遍很没有封我ip和给我返回403之类的，所以他对我们第一次玩爬虫的人来说很友好。这个网站就是(手动滑稽)。废话不多说，直接上代码： import requests from lxml import etree import re import os # 定制请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit

python爬取妹子图（复制即可用）

weixin_43321726的博客

12-16

982

1。注意保存的时候更改为自己的文件路径代码块 import requests from lxml import etree headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/53...

python项目之 爬虫爬取煎蛋jandan的妹子图-上

python项目之 爬虫爬取煎蛋jandan的妹子图-上

网页url格式

分析页面源码发现妹子图有两个

最终得到每一页的TXT文件，下篇是文件合并与图片存取。

源码如下

python项目之爬虫爬取煎蛋jandan的妹子图-上

python项目之爬虫爬取煎蛋jandan的妹子图-上