
爬虫
毛毛虫会长大
当你害怕的时候就闭上眼睛走下去 坚持下去 毛毛虫总有一天会破茧成蝶
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据提取之正则表达式
re.match(从头找一个) re.search(找一个) re.findall(找所有) 返回一个列表,没有就是空列表 re.findall("\d","chuan1zhi2") >> ["1","2"] re.sub(替换) re.sub("\d","_","chuan1zhi2") >> ["chuan_zhi_"] ...原创 2019-05-26 20:31:55 · 255 阅读 · 0 评论 -
数据提取之xpath
我们将在下面的例子中使用这个 XML 文档。<bookstore><book> <title lang="eng">Harry Potter</title> <price>29.99</price></book><book> <title lang="eng">L...原创 2019-05-26 20:35:26 · 162 阅读 · 0 评论 -
数据提取之lxml
1 lxml的安装安装方式:pip install lxml2 lxml的使用2.1 lxml模块的入门使用 导入lxml 的 etree 库 (导入没有提示不代表不能用) from lxml import etree 利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数...原创 2019-05-26 20:36:40 · 145 阅读 · 0 评论 -
数据提取之beautifulsoup
1 CSS 选择器:BeautifulSoup4的介绍和安装和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulS...原创 2019-05-26 20:37:46 · 224 阅读 · 0 评论 -
JS解析
JS的解析学习目标:了解 定位js的方法 了解 添加断点观察js的执行过程的方法 应用 js2py获取js的方法1 确定js的位置对于前面人人网的案例,我们知道了url地址中有部分参数,但是参数是如何生成的呢?毫无疑问,参数肯定是js生成的,那么如何获取这些参数的规律呢?通过下面的学习来了解1.1 观察按钮的绑定js事件通过点击按钮,然后点击Event Lis...原创 2019-05-26 20:46:37 · 611 阅读 · 0 评论 -
scrapy 入门使用
1 scrapy项目实现流程创建一个scrapy项目:scrapy startproject mySpider 生成一个爬虫:scrapy genspider itcast "itcast.cn 提取数据:完善spider,使用xpath等方法 保存数据:pipeline中保存数据2 创建scrapy项目下面以抓取传智师资库来学习scrapy的入门使用:http://www...原创 2019-05-26 23:56:46 · 245 阅读 · 0 评论 -
request 基础模块应用及爬虫概念
1. 爬虫的概念 模拟浏览器,发送请求,获取响应2. 数据的来源 网站上免费下载 去第三方购买 问卷调查 自己用户产生的数据 爬虫爬取3. 爬虫的分类 通用爬虫 聚焦爬虫 针对特定网站的爬虫4. 爬虫的流程 向起始url发送请求,并获取响应 对响应进行提取 如果提取url,则继续发送请求获取响应 ...原创 2019-05-23 22:15:20 · 157 阅读 · 0 评论 -
requests 模块基础应用
0. import requests response = requests.get(url) response.text1. response响应对象的常用属性,方法 response.status_code # 响应的状态码 response.text # 响应的内容 str response.content # 响应的内容 bytes ...原创 2019-05-23 22:17:28 · 107 阅读 · 0 评论 -
数据处理之json
1. 数据的分类 结构化的数据:json;xml json模块,jsonpath模块,xpath 非结构化的数据:html re模块,xpath2. json模块 json_str-->python数据类型 json.loads(json_str) python数据类型-->json_str ...原创 2019-05-24 08:04:30 · 134 阅读 · 0 评论