
爬虫
后端技术架构
这个作者很懒,什么都没留下…
展开
-
requests模块的使用
response的常用属性: response.text 响应体 str类型 respones.content 响应体 bytes类型 response.status_code 响应状态码 response.request.headers 响应对应的请求头 response.headers 响应头 response.request.cookies 响应对应请求的cookie resp...原创 2018-11-04 14:11:41 · 356 阅读 · 0 评论 -
lxml的使用
1 lxml的安装 安装方式:pip install lxml 2 lxml的使用 2.1 lxml模块的入门使用 导入lxml 的 etree 库 (导入没有提示不代表不能用) from lxml import etree 利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数...原创 2018-11-18 17:05:55 · 655 阅读 · 0 评论 -
数据提取之xpath
什么是xpath XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。 xpath语法 1 选取节点 XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。 使用chrome插件选择标签时候,选中时,选中的...原创 2018-11-18 16:51:33 · 592 阅读 · 0 评论 -
selenium的使用
selenium是一个web自动化测试工具,selenium可以直接运行在浏览器上,可以接收指令,让浏览器自动加载页面,获取需要的数据。 selenium的基本使用 1.导包 from selenium import webdriver 2.创建driver对象 webdriver.PhantomJS() 3.请求数据 driver.get("http://www.baidu.com") 4.查看...原创 2019-01-16 17:39:23 · 215 阅读 · 0 评论