
爬虫
文章平均质量分 93
辉子2020
爱学习,学的慢。唉,但还是爱学习。
展开
-
爬虫(34)fiddler移动端案例
文章目录第三十二章 fiddler抓取移动端数据案例1. fiddler移动端的配置第三十二章 fiddler抓取移动端数据案例今天主要讲fiddler移动端的配置和使用fiddler获取移动端数据包。首先来看fiddler移动端的配置。1. fiddler移动端的配置首先我们cmd获取一下本机的ip:ipconfig回车C:\Users\MI>ipconfigWindows IP 配置无线局域网适配器 本地连接* 1: 媒体状态 . . . . . . . .原创 2021-04-29 15:44:49 · 833 阅读 · 1 评论 -
爬虫(33)fiddler工具使用
文章目录第三十一章 fiddler简介与工具使用1. fiddler的简介2. fiddler的安装第三十一章 fiddler简介与工具使用1. fiddler的简介fiddler是一款抓包工具,它是一个http协议调试代理工具。它能够记录并检查所有你的电脑和互联网之间的http通讯。可以去官网查看它的具体信息。特点是:使用简单支持众多的http调试任务支持大多数的浏览器IE、Chrome、FireFox等等可以在phone、pad等移动设备进行连接2. fiddler的安装第一步:下原创 2021-04-26 12:09:58 · 355 阅读 · 0 评论 -
爬虫(32)移动端前导知识补充
第三十章 Android布局介绍1. Android布局介绍我们重新启动一下weditor,上次我们介绍了它的四个区域。C:\Users\MI>adb devicesList of devices attached127.0.0.1:62001 deviceC:\Users\MI>设备已经连接成功。我们继续讲weditor如何操作控件。我们打开上次做的app LogicDemo6,然后点击连接刷新。下面我们点击登录,看一下属性选取区的变化。我们发现出现了好多的信息原创 2021-04-25 13:39:50 · 625 阅读 · 0 评论 -
爬虫(31)移动端前导知识(下)
文章目录第二十九章 U2的基本操作1. U2的基本操作2. 布局演示3. 实现流程4. weditor的开启第二十九章 U2的基本操作1. U2的基本操作2. 布局演示3. 实现流程4. weditor的开启原创 2021-04-21 23:54:00 · 352 阅读 · 2 评论 -
爬虫(30)移动端前导知识
文章目录第二十八章 移动端数据的爬取1. 移动端背景2. Uiautomator介绍3. u2的执行流程4. adb的安装和使用5. u2连接第二十八章 移动端数据的爬取1. 移动端背景随着数字计数的发展,数据不仅仅存在于pc端,移动端数据的发展也是非常的快!对于做数据分析、移动画像、市调研来说,如果你仅仅参考pc端的数据是远远不够的。这个时候,移动端的数据就显得尤为重要了。互联网的发展史是:pc端>移动端>大数据,大数据后面可能是AI人工智能。目前仍然处在大数据的阶段。在2000年后兴起原创 2021-04-19 21:09:22 · 1215 阅读 · 3 评论 -
爬虫(29)mongodb(下)
文章目录第二十七章 python操作mongo1. mongo修改和删除1.1 指定键值的更新1.2 可选参数1.3 删除数据2. 练习3. mongo聚合命令4. mongo创建索引5. python操作mongo第二十七章 python操作mongo今天我们学习mongodb剩下的知识点,我们上次学习了如何添加和删除数据,以及如何查询数据。我们继续学习如何修改数据。1. mongo修改和删除语法db.集合的名称.update({query},{update},{multi:boolean})原创 2021-04-17 18:07:47 · 405 阅读 · 0 评论 -
爬虫(28)mongodb(上)
文章目录第二十六章 mongodb的简介与基本命令1. mongodb的简介1.1 mongodb的安装1.2 添加环境变量1.3 启动命令1.3 连接命令2. mongodb的基本命令3. 集合的基本命令4. 插入数据5. mongodb查询6. mongodb操作查询结果第二十六章 mongodb的简介与基本命令1. mongodb的简介特别像关系型的非关系型数据库,保存数据非常灵活。mysoql需要建库建表,而mongodb不需要,它的里面是集合,集合代替了表。优势:无数据结构的限制,业务开原创 2021-04-14 12:28:09 · 218 阅读 · 0 评论 -
爬虫(27)scrap_redis案例
文章目录第二十四章 scrap_redis案例1. settings文件的分析第二十四章 scrap_redis案例1. settings文件的分析原创 2021-04-12 19:58:32 · 497 阅读 · 0 评论 -
爬虫(26)scrapy_redis讲解
文章目录第二十三章 redis在scrapy中的运用1. python和redis的交互2. scrapy_redis讲解3. 下载scrap_redis案例4. settings文件分析第二十三章 redis在scrapy中的运用1. python和redis的交互首先安装redis,pip install redis。Collecting redis Downloading redis-3.5.3-py2.py3-none-any.whl (72 kB) |████████████原创 2021-03-11 23:49:47 · 461 阅读 · 1 评论 -
爬虫(25)redis简介与操作
文章目录第二十二章 Scrapy进阶redis的使用1. 数据库的简介2. Redis的使用3. Redis的配置文件4. string类型的命令5. list类型的命令第二十二章 Scrapy进阶redis的使用1. 数据库的简介背景:随着互联网+大数据时代的来临,传统的关系型数据库已经不能满足中大型网站日益增长的访问量和数据量。这个时候就需要一种能够快速存取数据的组件来缓解数据库服务I/O的压力,来解决系统性能上的瓶颈。Redis是什么?Redis是一个高性能的,开源的,C语言开发的,键值对存原创 2021-03-11 12:12:23 · 366 阅读 · 0 评论 -
爬虫(24)Scrapy练习 苏宁图书案例
文章目录Scrapy练习 苏宁图书案例1. 创建项目2. 获取首页大分类3. 找分类4. 获取小分类5. 进入小分类6. 获取每本书的信息Scrapy练习 苏宁图书案例我们到此已经学习了完了scrapy的知识模块,下面我们通过一个案例来练习一下。项目:爬取苏宁图书。第一步先爬取左边的分类第二步获取大分类下的小分类第三步,获取小分类下面的图书比如我们点击小说里面的中国当代小说,就进入了这个栏目的列表页面。如果我们想了解某本书的详情,可以点击图标,就进入了该本书的详情页面。比如,书名,简介,原创 2021-03-05 15:59:53 · 539 阅读 · 1 评论 -
爬虫(23)scrapy集成selenium
文章目录scrapy集成selenium1. selenium爬取简书案例1.1 项目目标1.2 先通过seleniumscrapy集成selenium1. selenium爬取简书案例今天讲一讲自动化测试工具Selenium如何集成在srapy中。1.1 项目目标当数据是通过加载得到的,就用到selenium。简书就是这种,难爬取。详情页里面有文章的内容,还有评论。评论下面还有文章被收录的专题:如果你的文章写的好,就会被有的任收录到自己的专题里面,这样可以增加文章的曝光度。我们今天原创 2021-02-23 22:39:11 · 1381 阅读 · 3 评论 -
爬虫(22)scrapy登录与middlewares
文章目录第二十二章 scrapy登录与middlewares第二十二章 scrapy登录与middlewares以前我们登录网站有两种方式:一个是:直接携带cookie来请求页面另一个:发送post请求携带数据进行模拟登录当然selenium也能模拟登录。...原创 2021-02-19 01:23:07 · 2282 阅读 · 0 评论 -
爬虫(21)crawlspider讲解古诗文案例补充+小程序社区案例+汽车之家案例+scrapy内置的下载文件的方法
文章目录第二十一章 crawlspider讲解1. 古诗文案例crawlspider1.1 需求1.2 处理1.3 解析2. 小程序社区案例2.1 创建项目2.2 项目配置2.3 解析详情页的数据3. 汽车之家案例(二进制数据爬取)3.1 创建项目3.2 项目配置3.3 定位图片3.4 配置settings3.5 创建开始文件3.6 打开管道3.7 在管道中操作3.8 图片存储路径代码解释3.9 解决报错问题3.10 翻页4. 其他方法爬取图片4.1 在items文件中创建两个字段4.2 导入items文件原创 2021-02-17 22:15:30 · 1213 阅读 · 1 评论 -
爬虫(20)Scrapy知识补充+腾讯招聘案例+古诗文详情页+总结
文章目录腾讯招聘案例腾讯招聘案例原创 2021-02-15 18:17:35 · 2778 阅读 · 0 评论 -
爬虫(19)pipline补充+item的讲解+古诗文案例
文章目录第十九章 pipline补充与item的讲解1. pipline的补充第十九章 pipline补充与item的讲解上一章我们讲了怎样创建一个scrapy项目,怎样爬取数据,保存数据。后面讲了一个豆瓣的小案例,来熟悉一下scrapy的使用。我们遗留了一个问题,就是在项目的末尾用的是yiled而不是return。这次课我们来具体研究一下。我们以前讲过有两种情形可以产生生成器,一个是通过列表推导式,一个是通过yield关键字。生成器可以更加节省内存的空间。由于有时候我们爬取的内容非常的多,retur原创 2021-02-11 09:57:18 · 686 阅读 · 2 评论 -
爬虫(18)Scrapy简介
第18章 Scrapy简介1. 简介Scrapy可以把爬虫变得更快更强大。是异步爬虫框架。优点是可配置,扩展性高。框架是基于异步的。Twisted异步网络框架。单词的意思是扭曲的的,代码里面有很多的闭包,函数嵌套。2. 安装scrapy这里安装颇费周折,中间出现两个报错,我是用换源安装的。后来百度发现scrapy的安装依赖几个库:lxml、 pyOpenSSL 、 Twisted 、pywin32第一个我安装过了,pyOpenSSL直接pip install 就可以了。 Twisted这个库的原创 2021-02-06 10:04:35 · 967 阅读 · 3 评论 -
爬虫(17)多线程练习 图片爬取案例
文章目录爬虫(17)多线程练习 图片爬取案例1. 多线程练习2. 王者荣耀案例思路分析2.1 第一种方法:直接在Previews里面找2.2 第二种方法:通过json.cn网站解析爬虫(17)多线程练习 图片爬取案例1. 多线程练习我们对多线程的特点进行一下解释:进程:系统中正在运行的应用程序。单核的cpu一次只能执行一个进程,其他的进程处于非运行状态。多软件打开的时候,cpu在快速切换,由于速度之快,我们感受不到切换。多核的cpu可以同时执行多个进程。线程:进程中包含的执行单元。一个进程可原创 2021-02-01 14:11:46 · 1124 阅读 · 4 评论 -
爬虫(15)多线程
1. 线程的简介有很多的场景中的事情是同时进行的,比如开车的时候 手和脚共同来驾驶汽车,再比如唱歌跳舞也是同时进行的。再例如我们的电脑可以打开多个程序同时进行,其实是计算机在做疯狂的切换,你丝毫察觉不到。但是如果你打开的程序过多,就会出现卡顿现象。为什么我们要研究多线程,是因为多线程能在爬虫中大大提高效率。2. 多线程的创建我们创建一个多线程,实现一边唱歌一边跳舞。# 创建多线程,目标是实现边唱歌一边跳舞def sing(): for i in range(3): prin原创 2021-01-29 13:51:36 · 250 阅读 · 0 评论 -
爬虫(14)图形验证码识别tesseract工具
文章目录爬虫(14)多线程1.tesseract的使用爬虫(14)多线程1.tesseract的使用原创 2021-01-29 10:59:28 · 852 阅读 · 0 评论 -
爬虫(12,13)selenium练习 12306案例
文章目录1. 登录的实现1. 登录的实现我们这一步先研究登录网站。我们用面向对象编程,这一步我们实现的目标是,定义项目框架,执行程序后,登录网站,并且提示已经登录成功。注意看代码中的注释:from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWait # 条件等待需要用from selenium.webdriver.support import expected_conditions as原创 2021-01-27 22:44:55 · 721 阅读 · 0 评论 -
爬虫(11) selenium(下) 行为链 登录qq空间案例
文章目录1. 行为链2. selenium操作cookie3. selenium页面等待4. selenium操作多个窗口1. 行为链有时候在页面中的操作可能有很多步,那么这时候可以使用鼠标行为链类:ActionChains来完成。下面我们通过一个案例来展示。打开百度网页,在输入框中输入“Happy new year!!!”,然后点击搜索。搜索后,在搜索按钮上右键。五秒后关闭网页。代码如下,注意看注释:from selenium import webdriverimport timefrom se原创 2021-01-25 14:06:00 · 785 阅读 · 0 评论 -
解决页面滚动并滚动停止时间问题案例 python 滚动条 页面滚动
文章目录1. 问题引入2. 屏幕滚动问题3. 滚动停止的方法4. 案例1. 问题引入现在的网页都是采用ajax加载的,如果我们要用selenium爬取网页的全部内容,就必须等待网页彻底加载完毕。而一页很显然不能加载完,那就需要拖动滚动条,直到所有内容加载完。而且,如果你爬取的时多个网页,那么你要控制住,当页面内容加载完后停止滚动。然后开始获取页面内容并解析爬取。本文就是介绍这两点内容的。我查找了许多帖子和博客,最终没有能够如愿解决。后来结合查到的信息内容和自己的思想解决了问题。全用的python和sel原创 2021-01-25 03:10:53 · 980 阅读 · 0 评论 -
爬虫(10)selenium上 模拟登录豆瓣案例
1. 驱动安装selenium介绍:selenium是一个web的自动化测试工具,最初是为网站自动化测试而开发的,selenium可以直接运行在浏览器上,它支持所有主流的浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。需要配合浏览器驱动使用。chromedriver是一个驱动Chrome浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver:Chrome:https://sites.google.com/原创 2021-01-22 19:35:21 · 1006 阅读 · 0 评论 -
爬虫(09)bs4(下) select()方法+修改文档树+天气信息案例
文章目录1. select()方法2. 修改文档树3. 爬取天气信息3.1 思路分析3.2 实践步骤4. slenium介绍1. select()方法我们也可以通过css选择器来提取数据,但需要我们掌握一些css语法。具体可以参考网页css选择器参考手册。2. 修改文档树3. 爬取天气信息3.1 思路分析3.2 实践步骤4. slenium介绍...原创 2021-01-15 17:57:25 · 1272 阅读 · 0 评论 -
爬虫(8)bs4上
文章目录1. bs4简介2. bs4入门3. bs4对象的种类4. 遍历文档树1. bs4简介Beautiful Soup是一个可以从HTML或XML文件中提取提取数据的网页信息提取库。首先需要安装,最好先安装pip install lxml再安装pip install bs4否则可能会出错。bs4不需要记语法,直接调用里面的方法就可以了,这是它比正则和xpath方便的地方。2. bs4入门我们用一段网页文档来示例一下如何使用bs4。from bs4 import Beautiful Soup原创 2021-01-14 23:55:23 · 232 阅读 · 2 评论 -
爬虫(7) lxml和xpath2020-12-28
文章目录1. Xpath的简介2. 工具安装1. Xpath的简介XPath(XML Path Language)是一种XML的查询语言,他能在XML树状结构中寻找节点。XPath 用于在 XML 文档中通过元素和属性进行导航。xml是一种标记语法的文本格式,xpath可以方便的定位xml中的元素和其中的属性值。lxml是python中的一个第三方模块,它包含了将html文本转成xml对象,和对对象执行xpath的功能。xml_content = '''<bookstore><原创 2020-12-29 03:47:22 · 510 阅读 · 0 评论 -
爬虫(06)正则表达式下+csv入门 2020-12-25
文章目录1. re常用方法1.1 compile()1.2 search()1.3 findall()1.4 split()1.5 sub()2. re模块分组3. 案例:百度图片爬取3.1 案例思路分析3.2 案例代码1. re常用方法正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不原创 2020-12-25 23:40:14 · 371 阅读 · 0 评论 -
爬虫(05)正则表达式 2020-12-23
文章目录1. 正则表达式概念1.1 match()函数1.2 元字符1.2 预定义匹配字符集1.3 重复匹配1.4 位置匹配和非贪婪匹配1.4.1 位置匹配1.4.2 贪婪与非贪婪模式1.5 校验数字的相关表达式1. 正则表达式概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式的应用场景• 表单验证(例如 : 手机号、邮箱、身份证… )• 爬虫正则表达式对Pyth原创 2020-12-24 12:20:07 · 223 阅读 · 0 评论 -
爬虫(04)cookie+session+正则+字典快速生成2020-12-18
文章目录1. 小知识点:字典快速生成1. 小知识点:字典快速生成当我们在定制headers的时候,会有大量的数据需要转化为键值对,给每对数据加上引号,手动操作很慢,这里我们可以用一个正则的方法快速操作。(.*?):(.*)'$1':'$2',这是正则表达式,选中所有要加引号的内容,按住Ctrl+r调出命令输入口,依次输入上面的正则表达式,再点Replace all...原创 2020-12-18 15:18:01 · 1253 阅读 · 0 评论 -
爬虫(03)面向对象写爬虫(函数,类,post有道翻译,requests)2020-12-16
文章目录1. 写一个爬帖子的项目2. 面向对象编程2.1 使用函数对象编程2.2 使用类对象编程1. 写一个爬帖子的项目我们先打开百度贴吧输入“海贼王”,然后随便打开两页,复制一下url,研究一下规律。https://tieba.baidu.com/f?kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&ie=utf-8&pn=50https://tieba.baidu.com/f?kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&ie=utf-8&am原创 2020-12-14 23:48:06 · 664 阅读 · 0 评论 -
爬虫(02)网络请求模块2020-12-14
文章目录1. 几个概念1.1 get和post1.2 全球统一资源定位符1.3 User-Agent1. 几个概念1.1 get和post爬虫有两种主要的请求方式就是get和post,get的请求方式,请求参数都会在url里面显示出来,而post则不会。一般post会对服务器数据产生影响,比如登录的时候会提交账户和密码,这个时候需要用post请求。1.2 全球统一资源定位符通称URL例如下面是一个新闻网页的url:https://news.cctv.com/2020/12/13/ARTILDC原创 2020-12-14 15:24:22 · 1430 阅读 · 0 评论 -
爬虫(01)前导知识&网络协议 2020-12-07
文章目录1. 端口2. 通讯协议1. 端口每个应用程序都有独立的标识,这个标识就叫端口。如果要进行数据通信,必须要知道对方的应用程序端口。为了标志这些应用程序,对这些应用程序都用数字进行标识。这里用来标识的数字就叫端口,又叫逻辑端口。2. 通讯协议应用程序之间的通讯需要统一的规则,这个规则一般称为通讯协议。国际组织定义了通用的通讯规则,叫着TCP/IP协议。所谓协议,就是通讯的两台计算机都必须遵守的规定或规则。HTTP又叫超文本传输协议(是一种通讯协议),HTTP它的端口是80。...原创 2020-12-08 16:24:21 · 363 阅读 · 0 评论 -
爬虫课开班典礼2020-12-5
文章目录1. 上课时间2. 学习内容3. 学习方法4. 上课须知5. 上课时间6. 接单问题7. 关于反爬虫8. 学习心态1. 上课时间我们的上课时间是每周一三五晚上20:00-22:00 课间休息10分钟。班主任老师:点点 QQ 2242268290上课老师: Jerry QQ 192149641课程答疑老师:Jerry Amy 居然 Cheney课外支持老师:点点 夏夏 恙恙 在群里备注的老师所有工作人员可以答疑的时间是:13:00-23:00 其中17原创 2020-12-05 23:08:41 · 168 阅读 · 0 评论