
爬虫
Zachary579
这个作者很懒,什么都没留下…
展开
-
Python---MongoDB数据库基本操作
文章目录Shell操作Mongo数据库一、基础操作二、增1、创建集合2、插入文档3、拷贝数据,将数据库的数据拷贝到另一个数据库三、删1、删除当前所在的数据库2、删除集合3、删除文档四、改1、更新数据/修改数据五、查1、查询所有数据2、查询当前数据库的状态3、查询文档 find([query,是否显示此字段])4、查询某一列去重后的数据5、AND条件的使用6、OR条件的使用7、限制查询8、skip()9、分页10、模糊查询11、排序查询12、统计六、游标1. 什么是游标?2. 游标的使用3 游标的声明周期Py原创 2020-12-02 21:03:53 · 573 阅读 · 0 评论 -
Python(爬虫篇)--- 破解加密【一】JS加密破解
“加密”的过程,就是把“明文”变成“密文”的过程。反之:“解密”的过程,就是把“密文” 变为“明文”。网页数据加密的方式有很多种,比如:JS 加密、Base64 加密、CSS 加密等。 下面让我们一起来探讨一下这些加密吧!原创 2020-12-01 21:41:47 · 6247 阅读 · 0 评论 -
Python(爬虫篇)--- 验证码破解【二】滑块验证码
文章目录解决滑块验证码思路:案例:豆瓣登录使用的技术:代码实现:更好的方式(常用)解决滑块验证码思路:找到滑块,按住鼠标拖动滑块到指定位置释放鼠标案例:豆瓣登录使用的技术:(1)selenium+Chrome 浏览器完成自动登录(2)使用 ActionChains 控制鼠标操作(鼠标按住—鼠标拖动—鼠标释放)(3)使用物理知识(加速度)模拟人的拖动轨迹(先加速后减速)代码实现:步骤一:进入首页,点击密码登录代码:from selenium import webdriver原创 2020-11-30 22:49:33 · 2686 阅读 · 0 评论 -
Python(爬虫篇)--- 验证码破解【一】图片、文字验证码
文章目录一、图片验证码概述(一)机器视觉(二)OCR库概述(1)Tesseract 简介(2)Tesseract 缺点二、方式一:Selenium手动打码三、方式二:使用三方打码平台(一)简介(二)超级鹰一、图片验证码概述(一)机器视觉从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些Python库来识别和 使用在线图片中的文字。我们可以很轻松的阅读图片里的文字,原创 2020-11-30 21:41:23 · 1974 阅读 · 0 评论 -
Python(爬虫篇)--- 动态HTML处理【二】Selenium数据获取
敬请期待原创 2020-11-25 22:01:58 · 1033 阅读 · 0 评论 -
Python(爬虫篇)--- 动态HTML处理【一】AJAX数据获取
文章目录一、爬虫和反爬虫二、Ajax 数据获取(一)什么是 Ajax(二)Ajax 请求分析方法三、案例:豆瓣电影信息爬取一、爬虫和反爬虫关于爬虫(spider)和反爬虫(Anti-spider)以及反反爬虫(Anti-Anti-spider)之间的斗争相信大家也都了解,那个经典的小莫小黎爬虫大战大家也都有所耳闻。这里就不赘述了。通常情况下,在爬虫与反爬虫的对弈中,爬虫一定会胜利。换言之,只要人类能够正常访问的网页,爬虫在具备同等资源的情况下就一定可以抓取到。关于爬虫部分一些建议:尽量减少请原创 2020-11-25 22:01:00 · 875 阅读 · 1 评论 -
Python(爬虫篇)--- Xpath语法
文章目录一、XML简介(一)什么是XML(二)XML和HTML的区别二、XPATH(一)选取节点(二)谓语(Predicates)(三)选取未知节点(四)选取若干路径三、lxml模块(一)lxml 简介与安装(二)lxml 初步使用1. 导入方式2. 内置方法及说明四、案例:网易云音乐歌手信息爬取一、XML简介(一)什么是XMLXML 指可扩展标记语言(EXtensible Markup Language)。XML 是一种标记语言,很类似 HTML。XML 的设计宗旨是传输数据,而非显示数据。原创 2020-11-24 22:56:04 · 856 阅读 · 0 评论 -
Python(爬虫篇)--- 正则表达式
文章目录一、为什么要学正则表达式二、基础正则表达式语法(一)元字符(二)python 中正则表达式模块——re1. match方法2. search方法3. findall方法4. finditer方法5. split方法6. sub方法7. 贪婪模式和非贪婪模式8. 爬虫的万能表达式9. 匹配中文三、案例----猫眼电影TOP100榜单信息爬取一、为什么要学正则表达式实际上爬虫一共就四个主要步骤:明确目标(要知道你准备在哪个范围或者网站去搜索)爬(将所有的网站的内容全部爬下来)取(去掉对我们原创 2020-11-23 23:38:47 · 1002 阅读 · 2 评论 -
Python(爬虫篇)--- Json模块 <含高德地图实例>
文章目录Json数据处理Json数据的两种方式一、使用json模块1.模块方法2.实例二、使用Resquests方法Json数据Json(JavaScript Object Notation,JS 对象标记)是一种轻量级的数据交换格式。 json 是 js 对象的字符串表达式,他使用文本形式表示一个 js 对象的信息,本质是一个字符串。Js 中对象和数组是比较特殊并且常用的两种类型:1.对象表示为键值对2.数据有逗号分隔3.花括号保存对象4.方括号保存数组。json 作为数据包格式传输的时原创 2020-11-20 21:59:55 · 810 阅读 · 0 评论 -
Python(爬虫篇)---Requests模块
Requests——让HTTP服务人类一、Requests简介1. requests库简介2. 安装方式二、GET请求1. 全页面保存text和content的使用情况2. params属性3. headers属性三、POST请求1. data属性2. header属性一、Requests简介1. requests库简介Urllib 和 Requests 模块是发起 http 请求最常见的模块。虽然 Python 的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API原创 2020-11-19 21:33:14 · 4405 阅读 · 13 评论