Python2.7 基于bs4与requests库的网页图片简单爬取

最新推荐文章于 2020-04-04 18:05:46 发布

转载最新推荐文章于 2020-04-04 18:05:46 发布 · 178 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/MyCodeLife-/p/7436585.html

文章标签：

#python #爬虫

本文介绍了一种使用Python的requests库和BeautifulSoup库抓取网页中图片的方法。通过访问指定网址并解析HTML源码，利用BeautifulSoup的find_all函数找到所有img标签，并进一步提取每个img标签中的src属性，从而获取图片的URL。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫入门新手，自学笔记，如果理解有错误请指正。

import requests
from bs4 import BeautifulSoup
import urllib
url = 'http://www.nipic.com/index.html'  #图片网站
data = requests.get(url)  #获取网站响应
soup = BeautifulSoup(data.text,'html.parser')  #解析
imgs = soup.find_all('img')

BeautifulSoup库的find_all函数可以搜索返回的网页源码中参数对应的标签对象。

尝试打印一下获取的img标签内容。

print imgs

我们可以看到一大堆img标签内容，比如 <img src="http://static.nipic.com/images/originalNewTip.png"/>, <img alt="\u4e03\u5915" desc="0" smallsrc="http://icon.nipic.com/BannerPic/20170815/home/20170815172311_1.jpg" src="http://icon.nipic.com/BannerPic/20170815/home/20170815172311.jpg"/>

我们怎么从其中分离出所需要的图片URL地址呢。从BeautifulSoup的库中可以查到，可以通过tag的属性直接获得标签内容。

for img in imgs:
    img_url = img['src']
    print img_url

可以观察到我们所需要的图片url主要在src="http://static.nipic.com/images/originalNewTip.png" 这个属性中，所以直接通过img['src']就可以获得到图片的下载地址。

转载于:https://www.cnblogs.com/MyCodeLife-/p/7436585.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

aaron1027

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python爬虫之HTTP请求库requests的安装与使用，万字教学，全网最全（2）

@优快云盲敲代码的阿豪的博客

09-18

1538

本文详细介绍了requests模块的安装及使用，从零开始带领大家学会如何利用python构建爬虫程序，内容丰富，包含了requests模块的各种功能；通过案例讲解使大家可以更好的理解与使用发送网络请求，获得响应数据官方文档:Requests是用python语言基于urlib编写的，采用的是Apache2 Licensed开源协议的HTTP库，它比urllib更加方便，可以节约大量的工作，完全满足HTTP测试需求的库。

用requests、bs4库爬取各地大学高校排名

Owen_panjx的博客

09-27

428

import requests from bs4 import BeautifulSoup import bs4 def getHTMLtext(url): #提取 try: #爬取网页的通用代码框架 r = requests.get(url,timeout = 30) r.rai...

参与评论您还未登录，请先登录后发表或查看评论

Python网页图片爬虫

12-06

Python2.7 的适合新手学习

简单的python2.7基于bs4和requests的爬虫

weixin_34194317的博客

07-18

129

python的编码问题比较恶心。 decode解码encode编码在文件头设置 # -*- coding: utf-8 -*-让python使用utf8. # -*- coding: utf-8 -*- __author__ = 'Administrator' from bs4 import BeautifulSoup import requests import os ...

使用Python获取网站的图片(2.7和3版本)

******* ▄︻┻┳═一 *******

11-28

1110

效果图： python2.7 代码： #!/usr/bin/env python #-*- coding:utf-8 -*- #python2.x的代码 import re import urllib import urllib2 url = "http://yingxiao.baidu.com/" hander = { "User-agent":"Mozilla/5.0

requests+bs4批量爬取反爬虫图片网站

小青蛙的博客

02-27

2221

导读：爬取反爬虫图片网站预览效果遇到的问题: 刚开始爬虫的时候，爬取到的所有图片都是一张重定向推广图片解决办法：在requests请求头headers中配置Referer属性，指向爬取网站的顶级域名（根据情况而定）爬虫代码 import os,re import requests from contextlib import closing from bs4 import Beautif...

Python网络爬虫实战：通过requests+bs4爬取并保存图片

Qlly

10-31

2672

Python爬虫实战基础篇——图片爬取 Python版本：3.5.4 涉及内容都是网络爬虫基础：requests和bs4库的应用、正则表达式等 import requests import os from bs4 import BeautifulSoup import re def GetHtml(url):#获取soup try: r = requests.ge...

利用Python2下载单张图片与爬取网页图片实例代码

09-20

在Python编程语言中，下载单张图片或爬取网页上的多张图片是一项常见的任务，尤其在数据抓取和网络资源管理领域。以下是如何利用Python2实现这一功能的详细步骤和知识点： 1. **基础概念**： - **HTTP请求**：...

爬虫随笔（1）：Spyder(Python 2.7)环境搭建 & 爬虫初体(ru)验(keng)

码疯窝

05-24

7629

爬虫环境搭建首先，我们选取Anaconda来开启爬虫之旅，为什么呢？因为Anaconda是一个开源的Python发行版本，包含180多个科学包及其依赖项。 Python本身是一门严重依赖依赖的语言，如果你在学习之初没有很好的规划，后面可能会有点乱（版本、包）。笔者是这样的：前期安装Anaconda2.7版本，各种环境和包配置在其自带的Python27上，后面转用pycharm可以选择...

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

01-20

python2.7版本： #coding=utf-8 import re import requests import urllib from bs4 import BeautifulSoup import time time1=time.time() def getHtml(url): page = requests.get(url) html =page.text return ...

基于python2.7的爬虫入门教程

m0_37391757的博客

10-14

1388

工作总是充满挑战的，作为一个敲php代码的码农，应因需求学了一下python，由于网上python2.7的教程比较多，本人果断安装的2.7版本，不过3.5版本已经有了。。。请勿嫌弃。鄙人才疏学浅，仅将自己采坑爬坑的点总结了一下，得出下面的一段小教程，经与同事分享，还是可以的。第一次写博客，哈哈哈，share 起来！一、python安装及相关使用（才疏学浅，但喷血整理） 1、版本：p

python（2.7.13）爬虫爬取图片

08-16

利用lxml解析网页找到图片链接

爬虫--爬取网页图片--bs4

smalljun的博客

07-03

2199

1. 爬虫网络请求方式: urllib(模块),requests(库), scrapy , pyspider (框架)2. 爬虫数据提取方式: 正则表达是, bs4, lxml, xpath, css# 参数1：序列化的html源代码字符串，将其序列化成一个文档树对象。 # 参数2：将采用 lxml 这个解析库来序列化 html 源代码 html = BeautifulSoup(op...

使用Python第三方库requests和bs4 爬取必应首页的图片，并存储到系统对应位置

qq_44639286的博客

04-04

844

这是一个Python爬虫的案例使用requests库爬取bing首页的图片首先查看bing源代码，找到对应图片的链接分析这个div标签开始写python程序代码实现使用requests库爬取bing首页的图片必应首页每天都会更新一张美丽的照片，那么怎么用爬虫爬取这些图片呢附必应url：“https://cn.bing.com” 首先查看bing源代码，找到对应图片的链接进入bing首页，...

基于bs4+requests爬取世界赛艇男运动员信息

潇洒坤

08-22

334

bs4中文叫做美丽汤第4版，是用Python写的一个HTML/XML的解析器。中文文档链接：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html requests中文叫做请求，是用来发起http请求和接收http相应的库。官方文档链接： http://docs.python-...

网络爬虫 -- 批量下载网站图片

weixin_30266885的博客

04-28

164

1. 准备 python 2.x python库requests 和 BeautifulSoup 网址：少儿不宜--煎蛋和不知名网站 2. 开始工作 import requests from bs4 import BeautifulSoup res = requests.get('http://jandan.net/ooxx') html = BeautifulSoup(res.tex...

用 requests-bs4 爬取网络图片

My Honor！ My World！

05-05

1988

网页地址：http://www.mm131.com/qingchun/简单一点，我们只需得到 img 标签的 src 属性，即图片的地址示例代码# CrawBeaGirlImage.pyimport requests import os from bs4 import BeautifulSoup# url 请求网页数据 def getHtmlText(url, code): try:

requests与BeautifulSoup爬取网页图片

Travelerwz的博客

10-26

1821

requests+BeautifulSoup爬取网页内容系列&amp;amp;lt;一&amp;amp;gt; 最近一直抽时间在看requests+BeautifulSoup爬取网页内容这一块的内容，所以，打算把自己看的总结一下，分享也是一种学医，给自己做做笔记。 1.首先，我们看一下requests库 requests库主要用于访问网页，这个网上资源比较多，所以我就不多说了，我这直间给出一个连接，大家可以看看。快速上手req...

Python 简单的爬图片，下载到本地，requests+beautifulsoup框架

码点

12-14

1711

先上图：源码： from urllib import request from bs4 import BeautifulSoup import os # 新建文件夹 curPath = os.getcwd() temPath = 'tu2345' targetPath = curPath+os.path.sep+temPath if not os.path.exists(targetPa...

linux通过python爬取网页数据