
[Python]网络爬虫 系列
Shawn.Hu
1
展开
-
[Python]网络爬虫(七):Python中的正则表达式教程
http://blog.youkuaiyun.com/pleasecallmewhy/article/details/8929576接下来准备用糗百做一个爬虫的小例子。但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。以下内容转自CNBLOG:http://www转载 2015-05-29 23:27:06 · 1389 阅读 · 0 评论 -
Python的getattr(),setattr(),delattr(),hasattr()
http://www.cnblogs.com/zhangjing0502/archive/2012/05/16/2503702.htmlgetattr()函数是Python自省的核心函数,具体使用大体如下:获取对象引用getattrGetattr用于返回一个对象属性,或者方法class A: def __init__(self):转载 2015-07-03 15:07:21 · 3400 阅读 · 0 评论 -
[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
http://blog.youkuaiyun.com/pleasecallmewhy/article/details/8927832[python] view plaincopy# -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版本:0.1 # 作转载 2015-05-25 17:29:02 · 973 阅读 · 0 评论 -
[Python]网络爬虫(五):urllib2的使用细节与抓站技巧
http://blog.youkuaiyun.com/pleasecallmewhy/article/details/8925978前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可转载 2015-05-25 17:02:46 · 756 阅读 · 0 评论 -
[Python]网络爬虫(四):Opener与Handler的介绍和实例应用
http://blog.youkuaiyun.com/pleasecallmewhy/article/details/8924889更好的学习网址:http://www.voidspace.org.uk/python/articles/urllib2.shtml#openers-and-handlers以下为个人学习笔记。在开始后面的内容之前,先来解释一下urllib2转载 2015-05-19 23:54:27 · 21317 阅读 · 1 评论 -
[Python]网络爬虫(一):抓取网页的含义和URL基本构成
http://blog.youkuaiyun.com/pleasecallmewhy/article/details/8922826一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的转载 2015-05-19 21:21:14 · 1280 阅读 · 0 评论 -
[Python]网络爬虫(三):异常的处理和HTTP状态码的分类
http://blog.youkuaiyun.com/pleasecallmewhy/article/details/8923725先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTT转载 2015-05-19 21:25:27 · 7606 阅读 · 0 评论 -
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
http://blog.youkuaiyun.com/pleasecallmewhy/article/details/8923067版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源转载 2015-05-19 21:23:46 · 2573 阅读 · 0 评论 -
[Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
http://blog.youkuaiyun.com/pleasecallmewhy/article/details/8934726更新:感谢评论中朋友的提醒,百度贴吧现在已经改成utf-8编码了吧,需要把代码中的decode('gbk')改成decode('utf-8')。百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。转载 2015-06-01 00:04:52 · 945 阅读 · 0 评论 -
[Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
Q&A:1.为什么有段时间显示糗事百科不可用?答:前段时间因为糗事百科添加了Header的检验,导致无法爬取,需要在代码中模拟Header。现在代码已经作了修改,可以正常使用。2.为什么需要单独新建个线程?答:基本流程是这样的:爬虫在后台新起一个线程,一直爬取两页的糗事百科,如果剩余不足两页,则再爬一页。用户按下回车只是从库存中获取最新的内容,而不是上网获取,所以浏览更顺畅转载 2015-05-31 20:07:47 · 954 阅读 · 0 评论 -
django 一次性上传多个文件, 批量上传
在用django 写文件上传的时候,从request.FILES['myfiles'] 获取到的文件始终只有一个, 但在HTML页面上明明用 HTML5 的 文件控件选择了多个文件,用的是CHROME 浏览器,一次可以选择多个文件上传。在 Pydev 开启debug模式,查看request 对象,发现上传的多个文件确实在request对象中,但为什么 用request.FILES['myfi转载 2015-05-25 17:33:48 · 7432 阅读 · 1 评论