python项目之 爬虫爬取煎蛋jandan的妹子图-上
抓取妹子图练练手。
网页url格式
http://jandan.net/ooxx/page-1777#comment
只需改变页码1777即可
分析页面源码发现妹子图有两个
一个是缩略图
<img src="http://ww1.sinaimg.cn/mw600/4bf31e43jw1f09htnzkh5j20dw0kumz0.jpg" /></p>
另一个是原图
<a href="http://ww1.sinaimg.cn/large/4bf31e43jw1f09htnzkh5j20dw0kumz0.jpg" target="_blank" class="view_img_link">[查看原图]</a>
这里我们抓取原图,使用class和target这个属性查找。
最终得到每一页的TXT文件,下篇是文件合并与图片存取。
源码如下
代理ip文件请自行查找:-D

本文介绍了一个Python爬虫项目,旨在爬取煎蛋网的妹子图。通过分析网页URL格式,作者发现每页妹子图包含缩略图和原图,并决定抓取原图。利用特定的class和target属性定位图片链接,最终将每一页的图片链接保存为TXT文件,为后续的图片存取做准备。
最低0.47元/天 解锁文章
1262

被折叠的 条评论
为什么被折叠?



