
爬虫
文章平均质量分 89
ydw_ydw
这个作者很懒,什么都没留下…
展开
-
Python之爬虫-- js加密(破解有道词典加密的算法)
js加密有的反爬虫策略采用js对需要传输的数据进行加密处理(通常是取md5值) 经过加密,传输的就是密文,但是 加密函数或者过程一定是在浏览器完成,也就是一定会把代码(js代码)暴露给使用者 通过阅读加密算法,就可以模拟出加密过程,从而达到破解 过程参看案例1, 案例2 过程比较啰嗦,笔记比较少,仔细观察案例1: '''破解有道词典V1'''from urllib ...原创 2018-08-26 10:43:28 · 905 阅读 · 1 评论 -
安装Python之后pip 和pip3的区别
安装了python3之后,库里面既会有pip3也会有pip 使用pip install XXX 新安装的库会放在这个目录下面 python2.7/site-packages 使用pip3 install XXX 新安装的库会放在这个目录下面 python3.6/site-packages 如果使用python3执行程序,那么就不能import python2....翻译 2018-08-25 11:46:15 · 9399 阅读 · 0 评论 -
Python之爬虫-- etree和XPath实战
下面代码是在网站上找到的一个例子,空闲的时候可以自己调试。 # -*- coding:utf-8 -*-""" 爬虫 创业邦 创业公司信息爬取网页url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0'爬取页面中的创业公司,融资阶段,创业领域,成立时间和创业公司的链接信息。使用到requests, json, codecs, lxm...转载 2018-08-29 17:54:58 · 3854 阅读 · 0 评论 -
Python之爬虫-- XML与XPath
XMLXML(EXtensibleMarkupLanguage) 学习文档: http://www.w3school.com.cn/xml/index.asp 案例1 概念:父节点,子节点,先辈节点,兄弟节点,后代节点案例1: <?xml version="1.0" encoding="utf-8"?><bookstore> <b...原创 2018-08-29 17:53:00 · 4256 阅读 · 0 评论 -
Python之爬虫-- SSL
SSL SSL证书就是指遵守SSL安全套阶层协议的服务器数字证书(SercureSocketLayer) 美国网景公司开发 CA(CertifacateAuthority)是数字证书认证中心,是发放,管理,废除数字证书的收信人的第三方机构 遇到不信任的SSL证书,(如 https://www.12306.cn , 360),需要单独处理 案例1 from urllib im...原创 2018-08-24 16:35:11 · 608 阅读 · 0 评论 -
Python之爬虫-- cookie & session
目录cookie & sessioncookie和session的区别session的存放位置使用cookie登录利用cookiejar访问人人, 案例3cookie的保存-FileCookieJar, 案例5cookie的读取, 案例6 案例1: 案例2: 案例3: 案例4: 案例5: 案例6: 为什么要使用Cookie ...原创 2018-08-24 16:19:52 · 787 阅读 · 0 评论 -
Python之爬虫-- 页面解析和数据提取
目录页面解析和数据提取Beautiful Soup 4.2.0 文档一、简介 二、bs4的使用 1、导入模块 2、获取节点 3、寻找节点页面解析和数据提取一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据和 结构化的数据。非结构化数据:先有数据,...原创 2018-08-28 22:54:05 · 834 阅读 · 0 评论 -
Python之爬虫--ProxyHandler(代理服务器)
根据上一篇博文User Agent已经设置好了,但是还应该考虑一个问题,程序的运行速度是很快的,如果我们利用一个爬虫程序在网站爬取东西,一个固定IP的访问频率就会很高,这不符合人为操作的标准,因为人操作不可能在几ms内,进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值,如果一个IP访问频率超过这个阈值,说明这个不是人在访问,而是一个爬虫程序。 一个很简单的解决办...原创 2018-08-23 19:46:48 · 1745 阅读 · 0 评论 -
Python之爬虫--UserAgent(用户代理)
有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA User Agent存放于Headers中,服务器就是通过查看Headers中的User Agent来判断是谁...原创 2018-08-23 18:31:11 · 1753 阅读 · 0 评论 -
Python之爬虫urllib(三)-urllib.error
目录urllib.error案例1 :案例2: urllib.error(用 request.openurl() 都应该放在 try 中) URLError产生的原因: 没网 服务器链接失败 找不到指定服务器 是OSError的子类 案例1 HTTPError, 是URLError的一个子类 案例2 两者区别: HTTPError是对应的...原创 2018-08-23 17:01:46 · 239 阅读 · 0 评论 -
Python之爬虫urllib(二)-request.data
目录request.data 的使用案例1: 案例2: 案例3: request.data 的使用访问网络的两种方法 get: 利用参数给服务器传递信息, 参数为dict,然后用parse编码 案例1 post 一般向服务器传递参数使用 post是把信息自动加密处理 我们如果想使用psot信息,需要用到data参数 使用post,意味着Ht...原创 2018-08-23 12:32:42 · 1443 阅读 · 0 评论 -
Python之爬虫-- Requests
目录Requests-献给人类一、简介二、安装方式三、 GET请求四、POST请求 五、显示json文件六、代理(proxies参数) 七、用户验证八、Cookies 和 Session1、Cookies2、Session九、SSL证书验证https请求验证ssl证书(有一些网站的ssl证书是自己写的,比如12306和360)Requests...原创 2018-08-27 11:21:47 · 242 阅读 · 0 评论 -
Python之爬虫urllib(一)
目录本节介绍的信息内容 包含模块网页编码问题解决urlopen 的返回对象(在例子中指的是rsp)包含模块urllib.request: 打开和读取urls urllib.error: 包含urllib.request产生的常见的错误,使用try捕捉 urllib.parse: 包含解析url的方法 urllib.robotparse: 解析robots.txt文件...原创 2018-08-22 22:23:44 · 286 阅读 · 0 评论 -
Python之爬虫准备工作
参考资料python网络数据采集, 图灵工业出版 精通Python爬虫框架Scrapy, 人民邮电出版社 [Python3网络爬虫](http://blog.youkuaiyun.com/c406495762/article/details/72858983) [Scrapy官方教程](http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutoria...原创 2018-08-22 19:42:51 · 407 阅读 · 0 评论 -
Python之爬虫-- cookie & session(二)
这一片是继 《Python之爬虫-- cookie & session》这一篇之后在网上找到的一篇小练习,也是对cookie有更深的认识一、为什么要使用Cookie Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容,登陆前与登陆后...转载 2018-08-25 16:38:00 · 741 阅读 · 0 评论