自学爬虫获取照片（零基础）

最新推荐文章于 2024-10-23 15:17:05 发布

原创

最新推荐文章于 2024-10-23 15:17:05 发布 · 800 阅读

3 ·

CC 4.0 BY-SA版权

本文记录了一位新手初次尝试爬虫的过程，目标是获取简单网站上的美女照片。步骤包括分析网站、获取页面代码、解析图片地址及保存图片。在获取页面代码时，通过设置re_tries参数处理HTTP错误，最终成功实现图片抓取。

新手，初级尝试。爬取简单网站的MM照片。写博留念。

步骤如下：

第一步：分析网站

网址：http://www.7160.com/xingganmeinv/list_3_1.html

打开网页元素，找到图片地址位置，地址在img标签下的src键中，获取每张照片的地址（http://img.7160.com/uploads/180130/12-1P1301A92Bc.jpg）然后用二进制格式保存照片。

第二步：获取页面代码

1.导入库：

#!/usr/bin/python
# -*- coding:utf-8 -*-
import urllib2
from bs4 import  BeautifulSoup

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wangde0703

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

[网络安全自学篇] 九.社会工程学之基础概念、IP获取、IP物理定位、文件属性

杨秀璋的专栏

09-09

2万+

这是作者的系列网络安全自学教程，主要是关于网安工具和实践操作的在线笔记，特分享出来与博友共勉，希望您们喜欢，一起进步。上一篇文章分享了Web漏洞及端口扫描之Nmap、ThreatScan和DirBuster工具；本篇文章将介绍社会工程学中的IP物理位置定位、IP获取、手机和邮箱查找、文件属性等。希望对初学者有帮助，大神请飘过，谢谢各位看官！文章目录一.社会工程学二.IP物理定位三.IP地址获取四...

[网络安全自学篇] 三十五.恶意代码攻击检测及恶意样本分析

热门推荐

杨秀璋的专栏

12-26

1万+

本文主要结合作者的《系统安全前沿》作业，相关论文及绿盟李东宏老师的博客，从产业界和学术界分别详细讲解恶意代码攻击溯源的相关知识。在学术界方面，用类似于综述来介绍攻击追踪溯源的不同方法；在产业界方面，主要参考李东宏老师从企业恶意样本分析的角度介绍溯源工作。关于攻击溯源的博客和论文都比较少，希望这篇文章对您有所帮助，如果文章中存在错误或理解不到位的地方，还请告知作者与海涵~

参与评论您还未登录，请先登录后发表或查看评论

爬虫爬取图片

12-20

爬图片，主要正则匹配到的url也不是真正的视频地址，打开那个视频url后你会发现浏览器地址栏上的地址变了，最好用mitmproxy抓包手机上的视频链接，那个链接才是真正的视频地址，而且没有水印的哦

非计算机专业小白自学爬虫全指南（附资源）

q7695650的博客

08-22

2427

爬虫是我接触计算机编程的入门。哥当年写第一行代码的时候别提有多痛苦。本文旨在用一篇文章说透爬虫如何自学可以达到找工作的要求。爬虫的学习就是跟着实际项目去学，每个项目会涉及到不同的知识点，项目做多了，自然也就会了。练练练！！！！本文推荐的资源就是以项目练习带动爬虫学习，囊括了大部分爬虫工程师要求的知识点。爬虫工程师要求知识点 1、python入门和进阶（进阶的包括多进程等等）...

python爬虫实践——零基础快速入门（一）

MTbaby的博客

01-25

1万+

一、环境配置 1.下载安装python3 为什么使用pyhton3，理由如下： python2以上只维护到2020年，我猜，感觉快要过气了。没有恶心的编码问题，并且更多工具选择pyhton3，新的工具才是生产力。本文都用python3来写。如果你是pyhton2，尝试一下pyhton3，相信你会有不一样的体验。注意选择适合自己电脑的版本。 2.安装requests和

python爬虫照片_Python爬虫入门教程 7-100 蜂鸟网图片爬取之二

weixin_39926749的博客

12-04

219

1. 蜂鸟网图片-简介今天玩点新鲜的，使用一个新库 aiohttp ，利用它提高咱爬虫的爬取速度。安装模块常规套路pip install aiohttp接下来就可以开始写代码了。我们要爬取的页面，这一次选取的是http://bbs.fengniao.com/forum/forum_101_1_lastpost.html打开页面，我们很容易就获取到了页码好久没有这么方便的看到页码了。尝试用 aio...

【零基础学爬虫】爬虫基本原理

我的博客

04-18

465

什么是爬虫请求网站，提取网页内容的最大化程序。获取到的是html代码，需要从这些文本中提取需要的数据发起请求：向目标站点发送HTTP请求，即发送一个Request，请求可以包括额外的header等信息，等待服务器响应 2.获取响应内容如果服务器正常，在第一步会返回一个response，response的内容便是所要获取的页面内容，类型可能有HTML，Json字符串、二进制数据（如...

利用python脚本，根据词条爬取百度图片(爬虫)_python爬虫百度图片代码

2401_83704159的博客

04-22

489

【代码】利用python脚本，根据词条爬取百度图片(爬虫)_python爬虫百度图片代码。

自学了半个月python，感觉没用，怎么办？今天告诉你

weixin_54556126的博客

11-24

671

我想说句好样的，别人自学三五天就放弃了，你还硬着头皮坚持了半个月，这么有上进心的小伙子哪里找？自学不下去，感觉没用，一定是你学习的过程中碰到了最难缠的问题，不知道自己学习Python的真实想法是什么。也别扯那些什么Python门槛低，容易学，对着教程敲键盘有谁不会？可你要是想继续深入，就得确定好前进的方向，简单来说，就是你未来要利用Python从事哪个方向的开发工作。熟悉我的朋友，都知道我是土木工程专业，18年毕业后，很多同学去了工地，我受不了工作居无定所，就开始谋划我的跨行大计，这

爬虫零基础入门

CJ130923的博客

09-29

605

第一次写博客，有问题还请各位小主谅解。文章主要针对初学爬虫，重在提供程序设计思路。从文章结构按照设计步骤顺序进行，相同的标题则表示不同方法下的代码。后面文章会附有具体的示例 # 爬虫教程总结 # ============================================================================= # 主要程序设计步骤： ...

爬虫自学

wangxiaohua_147的博客

11-17

554

爬虫的价值为我所用基于数据做自己需要的东西爬虫架构爬虫的调度端用来启动爬虫，终止爬虫，监视爬虫的运行情况。 |URL管理器，对已经爬取的URL和待爬取的URL进行管理。然后取出一个待爬取的URL传给网页下载器 |网页下载器，网页下载器会将URL指定的网页组成一个字符串。字符串会传给网页解析器 |网页解析器，一方面解析出有价值的东西，另一方面会解析

自学爬虫（一）

weixin_42039715的博客

08-30

688

本来做前端的梦想结果阴差阳错要做一个爬虫工程师，世界上很多都是这样子，没有选择的权利或者说自己也不知道该做什么，如果有机会就试一下吧。爬虫工程师必须要会的前端、后端py和java都要熟悉，然后逆向js等，于是好好努力吧。首先学习了基本的请求接口和返回数据 """ 记录学习py爬虫经过应用：百度翻译 """ import json from urllib.request import Request,urlopen from urllib.parse import urlencode import

如何自学Python爬虫？ 零基础入门教程

zihong523的博客

12-17

2936

如何自学Python爬虫？在大家自学爬虫之前要解决两个常见的问题，一是爬虫到底是什么？二是问什么要用Python来做爬虫？爬虫其实就是自动抓取页面信息的网络机器人，至于用Python做爬虫的原因，当然还是为了方便。本文将为大家提供一份详细的新手入门教程，带大家从入门到精通Python爬虫技能。一、爬虫是什么？网络爬虫又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序。其

python爬虫零基础入门

直到世界的尽头

06-03

1777

思路讲解+代码解释注释以后的代码。代码不足之处相关链接关于爬虫相关理论认识下载安装BeautifulSoup，请移步思路讲解+代码解释尽管现在是2014年了，但是百度or google出来的大部分爬虫小程序都是基于py2.7的，我于是便想直接出一个py3.4最新版本的教程。在学习之前大致看一下第一篇了解一下的一些概念性的东西以及bs4第三方库的使用。请参考文

Python爬虫超详细讲解（零基础入门）！

m0_75067629的博客

09-23

2782

网络爬虫的定义是什么？网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上，只要是浏览器(客户端)能做的事情，爬虫都能够做。网络爬虫在我们的生活中扮演怎样的角色？在数字化时代，信息如同潮水般汹涌而来。过去，我们可能依赖书籍、报纸或电视来获取信息，但这些渠道的信息量有限，而且筛选过的信息未必能满足我们的需求。如今，互联网为我们提供了海量的信息，但同时也带来了“信息过载”的问题。

爬虫自学之路

qq_33570092的博客

10-08

311

阅读文本大概需要 10 分钟。从毕业时开始做爬虫到现在已经有 4 个月的时间了，这 4 个月时间里，我从最初负责编写爬虫插件的边缘业务做起，到如今负责公司爬虫主业务。4 ...

一篇最全Python 爬虫超详细讲解（零基础入门,适合小白）