
爬虫
文章平均质量分 76
正则表达式,xpath,bs4
best-storm
python学习中
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2021-08-07 Python-爬虫练手:爬取上千张动漫卡通头像
爬取上千张卡通头像思路实现一级页面二级页面try-except 保存完整程序代码ualist记得关闭请求成品欣赏 这两天在学算法,昨天感觉力扣的头像不好看,刚好有两天没碰爬虫了,就百度了下头像网,顺便练练手,再换个头像 目标:https://www.gx8899.com/katong/ 思路实现 分页 1-n页 每一页有16张封面,每张封面点进去有这个封面的全部系列图片 最小单位:一个封面的全部系列图片 一级页面 获取第一页源码并提取每个封面的页面链接 resp=requests.get原创 2021-08-07 20:28:31 · 3594 阅读 · 2 评论 -
2021-08-01 Python-爬虫练手:爬取上千张“萌妹子“网美图
爬取"萌妹子"全部网诱惑写真图一.目标网站二.网站分析1.翻页方法2.提取每个封面的链接以及名称3.二级页面3.1提取图片链接3.2保存图片三.代码及运行结果1.完整代码2.运行结果3.成品欣赏 一.目标网站 目标网站:https://imoemei.com/ 网站爬取分类:https://imoemei.com/meinv/page/{n} 一共11页 二.网站分析 1.翻页方法 所有翻页全部采用for循环,有更好的更简单的方法请大神指点一下 写真栏目 -一共11页,考虑翻页问题 for n in原创 2021-08-01 20:37:53 · 1016 阅读 · 0 评论 -
2021-07-31 Python爬虫练手项目--爬取上千张明星美图
爬虫每日练手--"靓丽图库"之美女明星1.确定目标2.提取链接爬取封面链接爬取子页面3.代码及结果完整代码输出结果代码细节解释设置简单反爬打印输出结果4.成品欣赏 1.确定目标 目标网站:https://www.hexuexiao.cn/ 爬取目标分类:https://www.hexuexiao.cn/meinv/meinvmingxing/ 看看网站质量 质量还不错,开始run 2.提取链接 上面的截图只是主页面封面截图,每个里面还有二级子页面(组图) 所有链接均为bs4结合re正则表达式定位找到原创 2021-07-31 22:02:59 · 1293 阅读 · 0 评论 -
2021-7-30 Python-爬虫练手:爬取高质量美女图片
爬取"搜优图"高质量美女图片目标网站思路分析封面页用bs4确定封面页图片链接拿到图片链接和名称保存封面子页面(套图)确定子页面位置获取子页面里图片位置和图片名称保存组图完整代码运行结果成品欣赏 目标网站 目标网站:https://www.souutu.com/ 爬取美女栏目:https://www.souutu.com/mbizhi/mmeinv/ 先看看网站质量 一开始我i以为只有封面上的图片,然后发现有的时单张图,有的图片右上角蓝标"套图",并且单张的点开具体页面和有套图的页面的源码还是有些区别的原创 2021-07-30 21:47:17 · 641 阅读 · 0 评论 -
2021-07-28 Python爬虫
Python爬取图虫网美女图片实战1.前戏2.代码实现所需模块发送请求提取图片的一级页面链接提取图片的二级页面链接并保存3.代码及运行结果完整代码运行结果:4.成品欣赏 1.前戏 本人是爬虫初学者,练手网站都是在b站上搜索爬虫,然后找的练手网站,这次也不例外. 发现一个吸引人的封面: 然后打开视频,暂停提取目标网站:https://tuchong.com/tags/美女 但是,由于技术不熟练,直接请求这个网站返回的源代码里没有东西,就又返回b站学习了下如何利用浏览器的抓包工具 找到了所需的url: ht原创 2021-07-28 20:23:18 · 452 阅读 · 0 评论