
爬虫
文章平均质量分 61
miner_zhu
这个作者很懒,什么都没留下…
展开
-
爬虫基础之会话和Cookies
在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及会话和Cookies的相关知识,本节就来揭开它们的神秘面纱。1. 静态网页和动态网页在开始之前,我们需要先了解一下静态网页和动态网页的概念...转载 2018-08-17 16:55:20 · 1539 阅读 · 1 评论 -
爬虫基础之基本原理
为什么叫爬虫:我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。1. 爬虫概述简单...转载 2018-08-17 16:30:30 · 684 阅读 · 0 评论 -
爬虫基础之网页基础
用浏览器访问网站时,页面各不相同,本次,我们就来了解一下网页的基本组成、结构和节点等内容。1.网页的组成网页可以分为三大部分——HTML、CSS和JavaScript。如果把网页比作一个人的话,HTML相当于骨架,JavaScript相当于肌肉,CSS相当于皮肤,三者结合起来才能形成一个完善的网页。下面我们分别来介绍一下这三部分的功能。(1) HTMLHTML是用来描述网页的一种语...转载 2018-08-17 16:18:19 · 1966 阅读 · 0 评论 -
爬虫基础之HTTP基本原理
1.URI和URLURI的全称为Uniform Resource Identifier,即统一资源标志符。URL的全称为Universal Resource Locator,即统一资源定位符。URL是URI的子集,也就是说每个URL都是URI,但不是每个URI都是URL。那么,怎样的URI不是URL呢?URI还包括一个子类叫作URN,它的全称为Universal Resource Na...翻译 2018-08-17 15:27:53 · 1318 阅读 · 0 评论 -
爬虫urilib库之parse
前面说过,urllib库里还提供了parse这个模块,它定义了处理URL的标准接口,例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理:file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh、teln...转载 2018-08-20 00:03:30 · 397 阅读 · 0 评论 -
爬虫urilib库之request
官方文档链接:https://docs.python.org/3/library/urllib.html首先,了解一下urllib库,它是Python内置的HTTP请求库,也就是说不需要额外安装即可使用。它包含如下4个模块。request:它是最基本的HTTP请求模块,可以用来模拟发送请求。只需要给库方法传入URL以及额外的参数,就可以模拟实现请求过程了。 error:异常处理模块,如果...转载 2018-08-19 22:30:03 · 465 阅读 · 1 评论 -
Python正则获取、过滤或者替换HTML标签的方法
本文实例介绍了Python通过正则表达式获取,去除(过滤)或者替换HTML标签的几种方法,具体内容如下python正则表达式:python正则表达式转义符:. 匹配除换行符以外的任意字符\w 匹配字母或数字或下划线或汉字\s 匹配任意的空白符\d 匹配数字\b 匹配单词的开始或结束^ 匹配字符串的开始$ 匹配字符串的结束\W 匹配任意不是字母,数字,下划线,汉字的字符...转载 2018-07-31 20:53:01 · 9172 阅读 · 1 评论 -
爬虫之API签名问题
为什么需要签名在外部用户访问开放的api接口中,用户请求服务器的时候,会遇到以下问题:请求身份是否合法请求参数是否被篡改请求的唯一性为了保证数据在通信时的安全性,我们可以采用参数签名的方式来进行相关验证。使用数据签名(常用Md5算法)1.给app分配对应的key、secret2.Sign签名,调用API 时需要对请求参数进行签名验证,签名方式如下: a. 按照...原创 2018-07-31 18:46:28 · 4387 阅读 · 0 评论 -
服务器后台自动运行程序和停止
后台运行命令如何后台运行python程序。关键的命令:nohup只需要输入下面的命令就可以在后台一直执行python程序啦nohup python -u test.py > test.log 2>&1 &这条命令的意思是,执行test.py程序,并把程序中执行的情况记录到test.log文件中,包括程序异常、程序中打印的信息等。 -u选项表示每...原创 2018-07-31 16:47:25 · 13951 阅读 · 3 评论 -
爬虫基础之Requests库入门
Requests库入门import requestsr = requests.get("http://www.baidu.com")r.status_coder.encoding = 'utf-8'r.textRequests库的7个主要方法方法 说明 requests.request() 构造一个请求,支持以下各方法的基础方法 requests.get(...转载 2018-07-19 18:35:23 · 203 阅读 · 0 评论 -
爬虫之scrapy工作流程
Scrapy是什么?scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。异步与非阻塞的区别:异步:调用在发出之...原创 2018-07-18 10:43:21 · 9952 阅读 · 0 评论 -
爬虫之简单反爬虫措施和解决方法
0x01 常见的反爬虫 这几天在爬一个网站,网站做了很多反爬虫工作,爬起来有些艰难,花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式。前两种比较容易遇到,大多数网站都从这...转载 2018-07-18 10:21:15 · 5845 阅读 · 2 评论 -
爬虫之scrapy网络爬虫
第1章 初识scrapy1.1 创建第一个项目项目描述: 抓取电商网站上的图书名称和价格 地址:http://books.toscrape.com/catalogue/page-1.html 流程: 新建项目 —— 新建爬虫 —— 修改爬虫 ——运行爬虫并保存# 1.新建项目 scrapy startproject example # 2.新建爬虫 sc...转载 2018-07-17 20:08:58 · 302 阅读 · 0 评论 -
爬虫简述
URLURL的一般格式为(带方括号[]的为可选项):protocol://hostname[:port]/path/[;parameters][?query]#fragmentURL 由三部分组成: 第一部分是协议:http,https,ftp,file,ed2k… 第二部分是存放资源的服务器的域名系统或IP地址(有时候要包含端口号,各种传输协议都有默认的端口,如http的默认...翻译 2018-07-17 14:59:52 · 275 阅读 · 0 评论 -
爬虫基础之代理的基本原理
1. 基本原理代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了请求给Web服务器,Web服务器把响应传回给我们。如果设置了代理服务器,实际上就是在本机和服务器之间搭建了一个桥,此时本机不是直接向Web服务器发起请求,而是向代理服务器发出请求,请求会发送给代理服务器,然后由代理...转载 2018-08-17 17:01:09 · 2268 阅读 · 0 评论