
python 爬虫
missing walker
这个作者很懒,什么都没留下…
展开
-
python 网络爬虫 (十五)Redis数据库的安装(配成服务器)+ redis基础命令 + redis集中数据类型及其操作(string + hash + list + sets + zset)
文章目录一、Redis的介绍及安装(配成服务器)1. Redis的介绍2. Redis的优点1. 安装成服务2. redis的客户端命令和服务端命令3.redis命令一、Redis的介绍及安装(配成服务器)1. Redis的介绍REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。Redis是一个...原创 2019-11-16 15:21:00 · 413 阅读 · 0 评论 -
python 网络爬虫(十四)replaction复制集的实现 + MongoDB数据的几种不同方式导入导出恢复(json,bson,csv格式)
文章目录一、MongoDB数据的导入导出1. 通用选项2. mongoexport 导出json格式的文件与mongoimport导入(1)mongoexport 导出json文件步骤(2)mongoimport导入(3)mongoexport导出csv格式(4)mongoimport导入csv文件3. mongodump导出二进制bson结构的数据及其索引信息(1)mongodump导出步骤4....原创 2019-11-10 15:30:20 · 800 阅读 · 0 评论 -
python 爬虫(十三)MongoDB基础:增删改查操作 + MongoDB 聚合 + 游标的概念和操作 + B tree + hash索引 + 索引的常用命令(创建,删除等)
文章目录一、MongoDB增删改查操作1. 增加:insert方法(1)增加单篇文档(一条数据)(2)增加多个文档(多条数据)2. 删除:remove(1)删除符合条件的文档(2)删除大于某个值的文档:$gt(3)删除小于某个值的数据:$lt(4)删除小于等于某个值的数据:$lte(5)删除大于等于:$gte(6)删除不等于:$ne(7)删除文档,只删除一个:{justOne:true}3. 更新...原创 2019-11-06 23:49:36 · 440 阅读 · 0 评论 -
python 爬虫(十二)MongoDB详解(安装 + 介绍 + MongoDB库和集合的介绍(相关命令:创建 + 删除)) + 爬虫中分页的两种方法
注意:爬取网站的流程:确定网站哪个url是数据的来源。简要分析一下网站结构,查看数据一般放在哪里。查看是否有分页,解决分页的问题。发送请求,查看response.text里面是否有我们想要的数据内容。如果有数据,就用相应的提取数据的方法提取数据保存。如果没有,我们就可以通过以下两种方法来实现爬取:(1)分析数据来源,查看是否通过一些接口获取到的页面数据。(首推)如果没有在页面中...原创 2019-11-06 22:09:43 · 344 阅读 · 0 评论 -
python 爬虫(十一)多线程爬虫基础 + 通过ajax接口获取数据(多线程的运用+案例(腾讯招聘+链家)) +(程序+进程+线程+多线程+多线程和多进程的区别 + 互斥锁+ 死锁 + 银行家算法)
小知识:格式化字符串的三种方法:'....%s.' %i "%"是Python风格的字符串格式化操作符;下面整理了一些符号及其含义例子:注意:如果是%和浮点数要用两个%来表示%;如‘%.2f%%’# 方式1:使用%运算符, %s表示任意字符,%d表示整数,%f表示浮点数name = 'tom123456'age = 18height = 180.5print('大家好,我叫...原创 2019-11-04 22:27:54 · 614 阅读 · 0 评论 -
python 爬虫(十)selenium+phantomjs请求页面流程 + selenium的三种等待 + 案例(豆瓣读书 + 腾讯招聘)
文章目录一、selenium+phantomjs来请页面的流程1. 导包2. 创建driver对象3. 请求url4. 等待4. 获取页面内容5. 用lxml模块解析页面内容二、selenium的三种等待1. 强制等待2. 隐性等待3. 显性等待4. expected_conditions三、案例:豆瓣读书,腾讯一、selenium+phantomjs来请页面的流程1. 导包from s...原创 2019-11-03 22:23:07 · 521 阅读 · 0 评论 -
python 爬虫(九)selenium常用方法总结
文章目录一、selenium常用方法二、selenium十八种定位方法三、selenium方法整理一、常用库导入二、基本操作一、selenium常用方法注意:下面的driver均为实例化对象from selenium import webdriver#1创建driver对象driver = webdriver.Phantomjs()1.获取当前页面的Url方法:current_u...原创 2019-11-03 21:20:22 · 1575 阅读 · 0 评论 -
python 爬虫(八)常见的反爬措施以及应对措施(爬虫必备)+ 动态Html页面的处理方法 + selenium+PhantomJS的介绍及安装
python中文件操作的小知识: 如何打印一个文件同时输出行号方法:枚举enumeratefp = open('test.txt','r',encoding='utf-8') print(fp) #如何输出行号 for i,c in enumerate(fp,1): ## 接收两个参数,第一个为遍历内容,第二个为起始行号,默认为0 print(i,c)文章目录一、常见的反爬...原创 2019-11-02 17:14:43 · 3157 阅读 · 0 评论 -
python 爬虫(七)lxml模块 + lxml数据提取(字符串的xml/html文件--转换--element对象--转换--字符串)调用XPath方法筛选数据 + 案例(扇贝 酷狗 网易云音乐)
文章目录一、lxml模块1. lxml简介与安装2. lxml初步使用1. 导包2.xml转成element对象的方法(1)将字符串形式的xml内容解析成可以调用xpath语法的element对象的方法3. 将一个html文件转化成element对象的方法4. 如何将element对象转化成字符串的方法二、在python中如何使用XPATH1. 使用xpath语法筛选元素一、lxml模块1....原创 2019-10-30 23:12:16 · 8416 阅读 · 0 评论 -
python 爬虫(六)XML的介绍(与HTML的区别 + 节点关系) + XPATH语法内容(选取节点 + 谓语 + 选取未知节点 + 选取若干路径 + XPath的运算符)
文章目录一、XML1. 什么是XML2.XML和HTML的区别1.语法要求不同2. 标记不同3. 作用不同3. XML的节点关系(1)父节点(Parent)(2)子节点(Children)(3)同胞(Sibling)(4)先辈(Ancestor)(5)后代(Descendant)二、XPATH1. 什么是XPath2. XPATH语法内容1. 选取节点2. 谓语3. 选取未知节点4. 选取若干路径...原创 2019-10-30 22:16:47 · 631 阅读 · 0 评论 -
python 爬虫(五)json模块最全攻略(相关方法详解) + 使用正则抓取数据的案例(猫眼电影 + 股吧 + 药网)
爬虫精髓:使用.*?进行匹配获取内容python小技巧: alt加回车键快速导包文章目录一、json相关方法及用法1. json的概念2. json的操作1. json.dumps()和json.loads()是将python中的list或dict转换成json语句(可以这么理解为操作数据)(1) json.dumps()函数是将一个Python数据类型列表进行json格式的编码(可以这么理解...原创 2019-10-30 20:28:42 · 1197 阅读 · 3 评论 -
python 爬虫(三)cookie和session + 爬虫中使用cookie或session实现登录 + 代理的设置(解决ip被封问题)
文章目录一、cookie和session1.产生的缘由2.cookie和session存放位置3. cookie① cookie定义② cookie的分类③ cookie的组成(属性)④ 常见误区4. session① session的由来② session的定义③ session流程④ session失效时间5. session和cookie的区别二、使用cookie或session登录1. 爬...原创 2019-10-29 20:00:11 · 4907 阅读 · 0 评论 -
python 爬虫(二)requests模块的介绍 + 基于requests模块的get请求和post请求 + 相关爬取案例(百度贴吧 + 百度产品 + 有道翻译 + 百度翻译)
文章目录一、requests模块1. requests模块的定义2. 使用requests模块的原因3. 如何使用requests模块二、基于requests模块的请求1. requests模块get请求① 完成请求的步骤② response对象包含的内容③ get请求的项目类别三种情况1. **没有请求参数的**2. **带请求参数的**3. **分页---百度贴吧**④ 查看网页使用的是get...原创 2019-10-28 20:16:38 · 787 阅读 · 4 评论 -
python爬虫(一)爬虫的认识 + 搜索引擎 + 爬虫分类 + 使用爬虫爬取数据流程 + 爬虫必备知识点(http和https) + hash实现加密文件字符串
文章目录一、获取数据的方式,爬虫的必要性二、爬虫的定义 分类 流程 搜索引擎1. 网络爬虫的定义:2. 爬虫可以解决的问题:3. 爬虫工程师的进阶之路4. 爬虫的分类① 通用爬虫:②聚焦爬虫:5. 爬虫的流程6. 爬虫如何爬取网页数据7. 搜索引擎:三、爬虫所需知识点1. 爬虫的准备工作2. http和https3. http请求和浏览器响应4. 客户端请求5. 服务端响应6. hash实现加密文...原创 2019-10-27 21:47:51 · 1420 阅读 · 0 评论