- 博客(66)
- 收藏
- 关注
原创 python爬虫 asyncio异步执行
import asyncioimport timeimport aiohttpfrom lxml import etreeurls = [ 'https://www.baidu.com/', 'https://www.baidu.com/', 'https://www.baidu.com/']async def get_request(url): async with aiohttp.ClientSession() as sess: asyn...
2021-05-05 20:40:57
226
原创 python 线程池
multiprocessingfrom multiprocessing.dummy import Poolpool = Pool(3)result = pool.map(函数名, 参数)
2021-05-04 19:29:15
174
原创 python中什么是闭包
当一个嵌套函数在其外部区域引用了一个值时,该嵌套函数就是一个闭包,其意义就是会记录这个值def out(x): def inside(): print(x) return insideout(5)()
2020-07-30 01:08:30
249
原创 两个列表转化成字典
d = ['a','b','c']print(type(d))c = ['开心','愉快','高兴']print(type(c))a = dict(zip(d,c))print(type(a))print(a)
2020-07-22 19:24:54
297
原创 快速清除python控制台
如果使用Mac OS X 系统,在python控制台中按Ctrl + L 键就可以直接清空Python控制台如果使用Win系统,则需要输入 : import os os.system('cls')
2020-07-10 18:36:29
3253
原创 一分钟了解scrapy流程
scrapy 框架流程图我们就按照这张图进行详解spiders 将URL发送到引擎,然后在经过调度器,调度器对引擎发过来的requests按照一定的方式整理队列 然后返回给引擎,引擎又将request扔给downloader,downloader进行请求,将返回来的response返回给引擎,然后在经过spiders,进行解析,然后在经过item pipelines对数据进行存储...
2020-07-09 13:20:38
197
原创 数据库事务
数据库的事务就是 逻辑单元执行一系列操作。一个逻辑工作单元必须有四个属性,称为ACID(原子性、一致性、隔离性和持久性)属性原子性(Atomicity):事务作为一个整体被执行,包含在其中的对数据库的操作要么全部被执行,要么都不执行一致性(Consistency):事务应确保数据库的状态从一个一致状态转变为另一个一致状态。一致状态的含义是数据库中的数据应满足完整性约束。隔离性(Isolation):多个事务并发执行时,一个事务的执行不应影响其他事务的执行。持久性(Durability):已.
2020-05-29 11:22:08
236
原创 mac 文件上传服务器
scp -r 文件路径 用户名@服务器地址:想要上传服务器地址scp -r /Users/mac/Documents/pycharm/taobao/taobao.py root@175.24.132.90:dingshi
2020-04-12 18:28:29
259
原创 python 列表和元组区别
一 相同之处: 他们都可以存任何类型的数据,支持切片 如下图:二不同之处: 最主要的是list是可变的 ,tuple 是不可变的
2020-03-31 11:34:45
342
原创 window下启动redis服务
一首先在下载redis二在目录下输入cmd三运行命令redis-server.exeredis.windows.conf铛铛~~ 这样redis就运行了
2020-03-29 21:48:47
432
原创 Xshell 连接Linux服务器
打开Xshell选择文件夹 新建主机位置 :写自己的IP点击用户用户身份验证输入用户名和密码 点击确定即可连接
2020-03-28 21:15:14
857
原创 python 创建文件夹
import timeimport os#取出当前时间time_stamp = time.strftime('%Y%m%d', time.localtime(time.time()))#判断文件夹是否存在aabbcc = os.path.exists('/huigege/'+ time_stamp)if aabbcc==False:#以当前时间做为文件名并创建文件夹...
2020-01-08 09:31:48
1301
原创 分布式爬虫2种方法
主从式分布爬虫对于主从分布式爬虫,不同的服务器承担不同的角色分工,其中有一台专门负责对其他服务器提供URL分发服务,其他机器则进行实际的网页下载。URL服务器维护待抓取URL队列,并从中获得待抓取网页的URL,分配给不同的抓取服务器,另外还要对抓取服务器之间的工作进行负载均衡,使得各服务器承担的工作量大致相等,不至于出现忙闲不均的情况。抓取服务器之间没有通信联系,每个待抓取服务器只和URL服务...
2019-09-12 11:06:12
1764
原创 ORM
对象关系映射(Object Relational Mapping,简称ORM)是通过描述对象和数据库之间映射的原数据,将面向对象语言程序中的对象持久化关系数据库中,本质就是将数据从一种形式转化到另一种形式。这也暗示着额外的执行开销;如果将orm做为一件中间件,则会有很大的优化,手写的持久层并不存在,更重要的是控制转换元素需要提供和管理,但是同样,这些花费比维护手写的方案要少,而且就是遵守ODMG规...
2019-09-11 11:09:30
926
原创 selenium 常见错误 和一些小知识
在用selenium的时候 ,明明自己的代码写得没有错 , 用过find_element_by_xpath,find_element_by_class_name进行定位 ,自己看着写的 也没有错误,就是一直报错,这个时候,可能就是因为在这里没有进行时间等待,time.sleep一下就可以啦,还有一点就是 自己刚接接触的一个新东西可以看最后一行 ,我要拿到这个图片链接,用sel...
2019-08-15 09:41:47
1095
原创 阿布云 运用到 scrapy
写到scrapy 中间件import base64""" 阿布云ip代理配置,包括账号密码 """proxyServer = "http://http-dyn.abuyun.com:9020"proxyUser = "HWFxxx"proxyPass = "CB8Dxxx"# for Python3proxyAuth = "Basic " + base64.urls...
2019-06-05 15:39:38
1268
原创 python中的继承
当一个类继承自另一个类,他就被称为一个子类/派生类,继承自父类/基类/超类。它会继承/获取所有类成员(属性和方法)继承能让我们重新使用代码,也能更容易的创建和维护应用。python支持如下种类的继承单继承:一个类继承自单个基类多继承:一个类继承自多个基类多级继承:一个类继承自单个基类,后者则继承自另一个基类分层继承:多个类继承自单个基类混合继承:两种或者多种类型继承的混合...
2019-05-16 11:17:13
1043
原创 python2 和 python3 的区别
1.Python3使用print必须要以小括号包裹打印内容Python2 既可以使用带小括号的方式,也可以使用一个空格来分隔打印内容2 . python2 range(1,10)返回列表,python3中返回迭代器,节约空间3 python2 中使用ascii编码,python3中使用utf-8编码4 python2中unicode表示字符串序列,str 表示字节序列pyt...
2019-05-07 17:50:12
887
原创 http https及响应过程
http是超文本传输协议,是从超文本内容到本地浏览器的一种协议,能把数据高效地传送到超文本文档https 是以安全为目标的HTTP通道 简单来讲是HTTP的安全版,HTTP下加了ssl层http请求的过程 我们在浏览器种输入一个url 回车之后便会在浏览器中观察到页面内容,这个过程就是,浏览器向这个网页上的服务器发出了一个请求,服务器接受到请求之后进行解析,然后返回对应的响应...
2019-05-07 14:12:23
1017
原创 flask 钩子
请求钩子 从请求到响应过程中,设置一些功能来实现某些功能before_first_request 在处理第一次请求前运行before_request 在每次请求前运行after_request 在每次请求后运行teardown_request 有未处理的异常的时候抛出@app.before_requestdef first():print(first...
2019-04-26 14:55:55
987
原创 python 自定义 headers和参数 图片上传到服务器上
import requestsimport jsonheader = { '*********' : '*******', '********' :'*********', }files = {'files':('2.jpg',open('**/2.jpg', 'rb'),'image/jpg',{})}2.jpg 参数名 ...
2019-04-22 17:24:46
1753
原创 利用数据库简单去重
对于数据库一秒能查看40多万数据,为什么要提到这些东西 ,因为我们现在就是用查找数据库里面的一个字段来进行对比的,代码如下: sql1 = "SELECT * FROM 表名 WHERE title = '{}';".format(item['title'])(利用title表字段)虽然数据库查找方式很快,但是以后数据会逐渐增多 我这里又加了...
2019-04-20 14:41:45
1574
转载 cookie模拟登陆
import scrapyclass LoginByCookie(scrapy.Spider): """ 直接使用cookie登录 """ name = 'login_by_cookie' allowed_domains=['www.imooc.com'] start_urls=[] def start_requests(self)...
2019-03-12 17:10:34
1151
原创 selenium基本操作
a'lert类是指windows弹窗的一些操作,new一个alertdriver.switchTo().alert():切换到alert窗口alert.getText():取得弹窗上面的字符串 alert.accept():点击确定/ok类的按钮,使弹窗消失alert.dismiss():取消...
2019-02-20 20:27:39
973
原创 挂载
在windows操作系统中,挂载通常是指给磁盘分区(包括被虚拟出来的磁盘)分配一个盘符。第三方软件,如磁盘分区管理软件,虚拟磁盘软件等,通常也附带挂载功能。在linux操作系统中,将一个设备挂接到一个已存在的目录上,我们要访问储存设备中的文件,必须将文件所在的分区挂载到一个已存的目录上,然后通过访问这个目录来访问储存设备...
2019-02-20 16:17:47
945
原创 *args和**kwargs的区别
1*args使用的方法*args用来将参数打包成tuple给函数体调用def function(*args): print(args, type(args))function(1)出现的结果是 tuple2**kwargs的使用方法**kwargs打包关键字参数成dict给函数体调用def function(**kwargs): print(kwa...
2019-02-20 10:22:04
1130
原创 localhost和127.0.0.0
127.0.0.1是环回地址,只有本机才能访问0.0.0.0是本机地址,内网和外网都可以访问localhost是本机域名,只有本机可以访问IP 是分5类的
2019-02-19 11:53:15
1078
原创 python中的单列模式
单例模式(Singleton Pattern)是一种常用的软件设计模式,该模式的主要目的是确保某一个类只有一个实例存在。当你希望在整个系统中,某个类只能出现一个实例时,单例对象就能派上用场。比如,某个服务器程序的配置信息存放在一个文件中,客户端通过一个 AppConfig 的类来读取配置文件的信息。如果在程序运行期间,有很多地方都需要使用配置文件的内容,也就是说,很多地方都需要创建 App...
2019-02-17 08:30:58
949
原创 http状态码
2开头的响应成功,客户端请求服务器正常响应3开头的响应成功,重定向了,服务器资源移动4开头的响应失败,客户端原因,比如请求格式不对,或者请求的内容服务器拒绝响应5开头的响应失败,服务器原因,比如服务器能力不足,或者内部出现bug错误...
2019-02-17 08:05:48
926
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人