python实例---python爬虫

kanguhong

于 2017-08-15 23:52:32 发布

阅读量496

点赞数

分类专栏： python 文章标签： python实例---python爬虫爬虫

python 专栏收录该内容

6 篇文章

订阅专栏

此爬虫可以将网络上的图片下载到本地：

# -*- coding:UTF-8 -*-
#爬虫
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1

    return imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

在ide上执行此代码即可。
这里的核心是用到了urllib.urlretrieve()方法，直接将远程数据下载到本地。　　通过一个for循环对获取的图片连接进行遍历，为了使图片的文件名看上去更规范，对其进行重命名，命名规则通过x变量加1。保存的位置默认为程序的存放目录。
程序运行完成，将在目录下看到下载到本地的文件。

参考地址：http://www.cnblogs.com/fnng/p/3576154.html

kanguhong

博客等级

码龄12年

150
原创

200
点赞

564
收藏

83
粉丝

关注

私信

分类专栏

java技术探索 5篇
ip 2篇
服务器 1篇
springboot 2篇
ideaui 1篇
nginx
java 74篇
oracle 29篇
linux 11篇
maven 2篇
solr 10篇
随笔 21篇
图表制作 1篇
highcharts 1篇
easyui 6篇
mysql 4篇
tomcat 4篇
JQuery 8篇
jsp 34篇
java bug 2篇
IDE 5篇
extjs 1篇
JBPM流程 4篇
前端页面框架 5篇
html5 1篇
python 6篇
layui 2篇
js 3篇

最新评论

linux中ifconfig无法显示ip地址
默默修炼的小趴菜: 照着操作做了，最后显示Command not found
python爬虫爬取图片
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
linux中ifconfig无法显示ip地址
serendipity. .: 是ens33,但还是没有文件或目录，怎么办？
linux中ifconfig无法显示ip地址
嵌入式门外小菜鸡: 第二种方法输入第二步显示没有那个文件或目录
解决java中io读取文件内容时有空格生成
weixin_47098058: 赞刚开始学习io流打印的时候后面就是一堆空格一下就解决了问题