
爬虫
蒋程扬
古月居签约作者,古月学院《如何开发一个ROS人机交互软件》原创作者。联系方式:chengyangkj@qq.com
展开
-
爬虫-requests模块使用代理
一,使用代理的原因1,让服务器以为不是一个客户端在不停的请求2,防止我们的真实地址被泄漏,防止追究责任二,免费代理网站米扑代理:https://proxy.mimvp.com/free.php三,使用代理首先安装request模块pip install requests设置代理字典,使用get方法使用代理# coding=utf-8import requestsproxie...原创 2018-12-03 22:26:23 · 227 阅读 · 0 评论 -
爬虫-requests模拟登录的三种方式(携带cookie/session进行请求网站)
一,cookie和session的区别cookie在客户的浏览器上,session存在服务器上cookie是不安全的,且有失效时间二,爬虫处理cookie和session带上cookie和session的好处:能够请求到登录后的界面 带上cookie和session的弊端:一个cookie和session往往和一个用户对应,访问太快容易被服务器检测出来爬虫不需要cookie...原创 2019-01-02 21:55:59 · 13537 阅读 · 1 评论 -
爬虫-requests模块保存图片及(content和text的区别)
这里找一张图片地址:百度的图片地址:https://www.baidu.com/img/baidu_jgylogo3.gif使用requests模块的get方法访问地址#encoding:utf-8import requestsresponse=requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif") #保存with...原创 2018-12-27 13:30:44 · 3849 阅读 · 0 评论 -
爬虫-xpath
什么是xpathxpath是一款高性能的Python xml/html解析器,可以利用xpath,来快速的定位特定元素及寻找结点信息XPath 开发工具开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)Chrome插件 XPath HelperFirefox插件 XPath Checker选取节点XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。...原创 2018-12-27 14:37:32 · 167 阅读 · 0 评论 -
爬虫-使用xpath
导入lxml的etree库from lxml import etree利用etree.HTML方法讲字符串(或字节)转化为Element对象,Element对象具有xpath方法:res_xpath=etree.HTML(response.text)rain=res_xpath.xpath("/html/body/div[5]/div[1]/ul/li[1]/p/text()")...原创 2018-12-28 13:37:54 · 138 阅读 · 0 评论 -
Python-json模块的使用
数据的分类:非结构化的数据: html等处理方式:正则表达式,xpath结构化数据: json,xml处理方法:转换为Python数据类型一,json数据JSon是一种轻量级的数据交换结构,他使得人们很容易进行阅读和编写,同时方便了机器进行解析和生成。适用于进行数据交换场景,比如网站前台与后台之间的数据交互。json数据存在手机版的网页,因此查找时需要将网页改为手机版二,Pytho...原创 2019-01-25 17:19:58 · 260 阅读 · 0 评论 -
爬虫-Selenium的使用
SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Sel...原创 2019-01-31 11:30:56 · 282 阅读 · 0 评论