
爬虫
G-无忧仙-LB
无忧一世,快了一世!
展开
-
爬虫Scrapy框架学习
Scrapy是一个功能强大的爬虫框架,Scrapy中的网络请求都默认的是异步模式,请求和返回都是由引擎去自动分配处理 1、什么是Scrapy? Scrapy的整个结构包含了四部分: Scheduler(调度器)、Downloader(下载器)、Spiders(爬虫)、Item Pipeline(数据管道) Scheduler(调度器)主要负责处理引擎发送过来的requests对象(包含params、data、cookies、request headers等) 会把请求的u.原创 2021-06-09 15:03:59 · 391 阅读 · 3 评论 -
协程以及queue队列学习
异步:在一个任务没有完成的时候就可以执行其他的任务,并且多个任务之间不受影响 同步:一个任务结束之后才能继续执行下一个任务 多协程原理:一个任务在执行的过程中遇到等待就会先去执行其他的任务,当等待结束再来执行之前的那个任务。(在计算机中 ,这种任务之间切换的非常快速,看上去就像执行多个执行) 在Python中使用gevent模块可以实现异步任务,也就是多协程 在Python中gevent并不是标准库,所以是需要安装的,window电脑直接使用pip install gevent命令,之后点击ent.原创 2021-06-07 16:45:14 · 405 阅读 · 0 评论 -
selenium 的了解以及应用
selenium是一个强大的Python库,它可以控制浏览器打开、输入、点击等操作,就像是有一个真正的用户在操作一样 静态网页:就是单纯用HTML语言写出来的网页就是静态网页 动态网页:像类似于QQ音乐这种需要的数据不在HTML源代码中,而是在JSON中,在爬取的时候就需要找到JSON数据的真实url,这种 就是动态网页 使用selenium时需要使用浏览器的驱动,如果使用谷歌浏览器的话,需要下载对应的或者是近似版本的谷歌驱动,谷歌驱动 下载网址:http://npm.taobao.org/.原创 2021-05-20 17:24:28 · 413 阅读 · 1 评论 -
cookies以及session学习
学习cookies 学习session 存储cookies 读取cookies 在网页的请求方式中,一共分为四种,分别是get,post,head以及options,但是后两者基本不常用。 post是网页的另一种请求方式,在请求是get请求会把参数都显示在网页链接中,所以最后的请求链接是非常长的 而post请求不会再链接中显示参数,而是隐藏起来,换句话说,get是明文显示,而post是非明文显示。 通常,get请求应用于获取网页数据,像之前的requests.get(),而post是应用于向网页提交数据.原创 2021-05-13 17:07:21 · 116 阅读 · 0 评论 -
openpyxl模块的应用
安装模块 命令:pip install openpyxl 或者是在pycharm中的搜索openpyxl的模块然后进行安装 写入数据 导入模块 import openpyxl 利用openpyxl.Workbook()函数创建新的workbook(工作薄)对象,就是创建新的空的Excel文件。 wb=openpyxl.Workbook() wb.active就是获取工作薄的活动表,通常指的是第一个表,也就是sheet1 sheet=wb..原创 2021-03-19 15:40:54 · 1557 阅读 · 0 评论 -
NetWork的学习
NetWork面板的功能:记录当前页面上面的所有请求,一般页面显示之后NetWork都是空的,因为NerWork是记录的实时请求,所以 页面成功打开之后就没有了,需要按F5刷新再次请求 在NetWork里面会有一些选项,红色的圆圈(一般浏览器默认是打开的,用高亮显示)表示启用NetWork开始监控,旁边灰色圆圈带 斜杠表示清空面板上的信息。Preserve Log的作用是保留日志请求,如果不点亮,在页面进行跳转的时候就会清空记录 在下面我们可以看到一些选择,ALL(查看全部)/XHR(.原创 2021-03-16 16:16:45 · 308 阅读 · 0 评论 -
BS4的学习
温馨提示: 安装bs4模块的命令是:pip install bs4 BeautifulSoup 是从bs4模块中导入出来的 安装BeautifulSoup4的命令:pip install BeautifulSoup4 -i https://pypi.douban.com/simple pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple 1、BeautifulSoup模块 在程序中对于数据的.原创 2021-03-16 16:12:21 · 156 阅读 · 0 评论 -
前端的常识
1、HTML语言 HTML并不是编译型语言,而是一种用来描述网页的语言,类似于建筑图纸对于建筑的作用 HTML文档==网页 HTML(Hyper Text Markup Language)是用来描述网页的一种语言,也叫作超文本标记语言 2、HTML的常见格式 <html> <head> 网页头的具体内容 </head> <body> .原创 2021-03-16 16:11:09 · 100 阅读 · 0 评论 -
爬虫常识
1、爬虫的步骤是: 获取数据: 爬虫会拿到我们要它去爬的网址,像服务器发出请求,获得服务器返回的数据。 解析数据:爬虫会将服务器返回的数据转换成人能看懂的样式。 筛选数据:爬虫会从返回的数据中筛选出我们需要的特定数据 存储数据:爬虫会根据我们设定的存储方式,将数据保存下来,方便我们进行后一步的操作。 2、res=requests.get(url) 这里的res是一个对象,它是一个requests.models.Response类,简单来说就是一个请求响应对象, .原创 2021-03-16 16:08:57 · 116 阅读 · 0 评论