笔记
文章平均质量分 56
jarvis-Wu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python3.6以后字典有序
python3.6以后字典有序 在Python 3.5(含)以前,字典是不能保证顺序的,键值对A先插入字典,键值对B后插入字典,但是当你打印字典的Keys列表时,你会发现B可能在A的前面。 但是从Python 3.6开始,字典是变成有顺序的了。你先插入键值对A,后插入键值对B,那么当你打印Keys列表的时候,你就会发现B在A的后面。 不仅如此,从Python 3.6开始,下面的三种遍历操作,效率要高于Python 3.5之前: for key in 字典 for value in 字典.values()原创 2021-03-07 22:52:13 · 434 阅读 · 0 评论 -
二进制,位运算(原码、反码、补码)
目录 1 二进制 2 原码、反码、补码 3 位运算符 4 位运算符使用技巧 上回学习运算符时,漏了位运算符,因为位运算符理解起来稍微有点复杂,所以要单独写一篇~ 要理解按位运算符,要先了解计算机进行存储和计算的底层逻辑。 因此我们从最基础的二进制说起。 1 二进制 只要学过计算机,就不可能不知道二进制。 我们知道,十进制是逢十进一,譬如11,左边的1在十位上,代表10,右边的1在个位上,就是1。 把1502这个数字拆开看,就是有1个1000,5个100,0个10,2个1, [外链图片转存失败,源站可能有防盗原创 2021-02-23 13:11:34 · 2888 阅读 · 0 评论 -
安装redis时遇到的错误
安装redis时遇到的错误 执行sudo make 出错 cc:not found 原因:没有安装gcc 解决办法:sudo apt install gcc 安装gcc后再次执行sudo make 出现错误 错误内容:fatal error: jemalloc/jemalloc.h: 没有那个文件或目录 解决方法:执行make MALLOC=libc 执行sudo make test 出错 错误内容:You need tcl 8.5 or newer in order to run the Red原创 2021-02-23 13:10:12 · 221 阅读 · 0 评论 -
selenium
安装driver(淘宝镜像) chromedriver 需要对应的chrome版本 提示权限不足,sudo chmod +x phantomjs 基础属性和方法 driver.page_source:网页源码 driver.save_screenshot(“path”):页面截屏 driver.get_cookies() : 获取所有的cookie driver.current_url :当前的url地址 定位元素的方法 driver.find_element # 返回第一个元素,如果没有报错 d原创 2021-02-23 13:09:09 · 123 阅读 · 0 评论 -
scrapy
scrapy scrapy的数据流程 调取器——》request对象——》引擎——》下载中间件——》下载器 下载器发送请求,获取响应——》response——》下载中间件——》引擎——》爬虫中间件——spider spider提取数据——》引擎——》pipeline spider提取的url地址——》构造request对象——》爬虫中间件——》引擎——》调度器 scrapy的使用流程 创建项目 scrapy startproject 项目名 创建爬虫: cd <project> s原创 2021-02-23 13:08:15 · 143 阅读 · 0 评论 -
1.Url编码和解码的使用urllib
1.Url编码和解码的使用urllib 1.1 parse.urlencode() dict的编码 from urllib import parse a = "上海" b = parse.urlencode({'wb': '上海'}) # dict 数据的编码 c = parse.unquote(b) # dict数据解码 print(c) print(b) 12345678 1.2 parse.quote() 字符串的编码 from urllib import parse a =原创 2021-02-23 13:06:46 · 178 阅读 · 0 评论 -
多线程多进程爬虫
准备url地址的方法 知道url地址的规律,知道一共多少页,准备url列表 不知道url地址的规律或不知道总共有多少页,准备url_temp抓取下一页的url 多线程爬虫 threading t1 = threading.Thread(target=func, args=(,)) t1.setDaemon(True) ti.start() # 此时线程才会启动 队列 q.join() # 阻塞主线程,让主线程等待队列任务结束之后再结束,队列任务会在计数为0时结束 q.task_done() 和原创 2021-02-23 13:05:06 · 140 阅读 · 0 评论 -
爬虫基础
三元运算符 if 条件成立,if前面的结果赋值给to,否则else后面的内容赋值给to to = 'en' if lan=='zh' else 'zh' requests进行携带cookie登录 cookie字符串放在headers中 把cookie字典交给requests请求方法的cookies 字典推导式 {i:i+10 for i in range(10) if i%2==0} 寻找登录接口的方法 form表单action对应的url地址 用户名和密码的input标签中,name的值作为键原创 2021-02-23 13:04:19 · 109 阅读 · 0 评论 -
数据提取方法
html和xml的区别 html(超文本标记语言),用来显示数据 xml(可扩展标记语言),用来传输和存储数据 xpath语法 // 的用途 //a当前html页面上的所有的a bookstore//bookbookstore下的所有book元素 @的使用 //a/@herf所有a的href text()的使用 //a/text()获取所有的a下的文本 text()的使用 //a/text()获取所有的a下的文本 //a[text()=下一页]获取文本为下一页的a标签原创 2021-02-23 13:02:44 · 649 阅读 · 1 评论
分享