- 博客(37)
- 收藏
- 关注
原创 使用aws Glue与kinesis 构建的流式ETL作业——二、数据处理
说明:在此脚本中,引入了python其他的包。写入PG使用的是sqlalchemy,是为了实现有则更新,无则写入的操作。由于Glue Job 在运行的时候,是在独立的服务器上,因此不能直接访问到私有子网中的服务,所以,借助Glue连接,可以使得Job在运行时连接AWS服务。–additional-python-modules:SQLAlchemy== 1.3.16,psycopg2-binary==2.8.5(值请自定义)此处提供了RedShift和PG数据库的连接创建过程,请自行选择。
2024-02-02 10:56:23
1030
原创 使用aws Glue与kinesis 构建的流式ETL作业——一、数据实时采集
在此案例中,我们使用了CloudWatch + Kinesis Data Stream完成了前期的数据实时采集的工作,并且,使用了Lambda来作为触发器来对数据进行了一个验证操作(也可使用Lambda来进行ETL工作)。
2024-02-02 10:55:11
973
原创 Apache Superset 通过GLUE可视化s3、RDS、RedShift中的数据
配置成功后,Superset默认使用8088端口,使用http://<EC2 公有IP>:8088访问,默认用户名和密码均为admin 可在Dockerfile、docker中命令、管理页面更改。需要配置管理员用户权限,在docker/docker-init.sh中默认创建用户admin(密码也是admin)但权限并没有更新,通过以下命令更新权限。启动一台Amazon Linux EC2并安装启动docker环境,需要机型为t.xlarge及以上,EBS盘20GB以上。1、docker 没有启动。
2024-02-02 10:53:51
1066
原创 基于AWS Batch的量化回测系统
任务类型我们选择单节点输入名称与超时时间选择使用Fargate作为运行环境,并开启分配公共IP。进入ECR,选择我们刚才创建的镜像仓库,复制其ARN。返回创建,输入映像与命令命令:python backtest.py 【数据源所在S3桶名】 【要回测的源数据文件名】 【结果存储S3桶名】输入重试次数完成创建。
2024-02-02 10:53:14
1005
原创 基于Glue ETL(提取、转换和加载)的serviceless 数据分析——三、serverless数据分析
到此,我们已经完成了基于Glue ETL(提取、转换和加载)的serviceless 数据分析的全部过程了。在此案例中,我们使用到了AWS 服务中的Glue、S3、APIGateway、Lambda等服务实现了一个通过API访问的数据统计与分析接口。
2024-02-02 10:42:22
440
原创 基于Glue ETL(提取、转换和加载)的serviceless 数据分析——二、数据清洗、转换
到这一步,我们已经使用Glue ETL对s3桶中的数据进行了清洗、分区操作。在进行上篇中的Athena操作后,我们已经可以通过Athena直接查询到清洗、分区后的数据集了。接下来,我们会通过使用APIGateway+Lambda+Athena来构建一个无服务器的数据查询分析服务。
2024-02-02 10:42:10
1044
原创 基于Glue ETL(提取、转换和加载)的serviceless 数据分析——一、Glue创建
在此实验中,我们使用Glue 的爬网程序自动解析存储在s3桶中的原始数据,自动创建了表。通过Glue数据库中的表,我们可以使用Athena对表进行查询(Athena每次检索表对应的s3桶数据,按检索量收费)。接下来我们会对原始数据进行转换、清洗以及分区操作,以及使用API Gateway+lambda实现一个无服务架构,通过API查询数据。
2024-02-02 10:41:50
987
原创 win to go 蓝屏笔记
Windows 11 win to go 安装硬盘无法启动解决方法之一Win10禁用UASP传输协议如何轻松更新惠普笔记本电脑的BIOS?
2024-02-02 10:40:48
534
原创 mysql 锁知识汇总
*锁是用来控制对数据库中数据访问的机制。**在并发环境下,多个用户可能同时访问相同的数据,这样就会产生数据的冲突和不一致的情况,为了避免这种情况发生,MySQL提供了多种锁机制。全局锁就是对整个数据库实例加锁。,执行后,整个数据库就处于只读状态了。
2024-01-31 17:59:18
1143
转载 mysql 事务知识汇总
MVCC 是 Multi-Version Concurrency Control 的缩写,意为多版本并发控制。这是一种数据库事务管理技术,主要用于处理并发读写操作,以提高数据库的并发性能和一致性。在 MySQL 中,MVCC 通过数据行的多个版本管理来实现并发控制。当一个事务在执行 SELECT 操作时,如果该行已经被另一个事务更新过,那么 InnoDB 存储引擎会提供之前版本的值给当前事务,这样在做查询的时候就不用等待另一个事务释放锁。
2024-01-31 10:20:01
45
原创 TCP三次握手与四次挥手知识汇总
这里只介绍SYN、ACK、FIN这三个标志位。一共有六个。SYN:代表请求创建连接。所以在三次握手中前两次要SYN=1,表示这两次用于建立连接。FIN:代表请求关闭连接。在四次分手时,我们发现FIN客户端与服务端各发了一次。这是因为TCP的连接是双向的,所以一次FIN只能关闭一个方向。ACK:代表确认接受。不管是三次握手还是四次分手,在回应的时候都会加上ACK=1,表示消息接收到了,并且在建立连接以后的发送数据时,都需加上ACK=1,来表示数据接收成功。seq:序列号。
2024-01-18 18:16:54
926
原创 django bulk_update_or_create 批量创建更新
当前django并没有提供能够批量创建或更新的方法,只有和以及,在实际业务中并不能满足我们的需求。因此才会有了。
2023-03-14 18:05:53
2859
1
原创 Glue连接RedShift的前置条件:创建终端节点
Glue连接RedShift创建选择redshift集群的vpc信息所在地:选择redshift的子网所在路由表创建
2022-08-25 18:49:36
379
原创 Given transaction number 1 does not match any in-progress transactions
mongodb事务操作报错
2021-12-28 14:59:27
1135
原创 unity的button按钮组件与toggle组件的点击事件的移除
button按钮添加点击事件可以使用这种形式:移除某个事件使用SonObj.GetComponent().onClick.RemoveListener(call)方法移除某个事件。RemoveListener中需要传递的参数为 UnityAction类型:因此,在创建监听事件时,可以将点击事件提取出来,在想要移除此次添加的点击事件时,将call传递给RemoveListener就行。...
2021-08-10 16:21:16
3965
转载 在新安装的Centos中安装python3.7 解决pip和yum问题
首先要先安装依赖包: yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make cd到一个你想放在的地方,哪里都可以。接着找到python3.7的安装包: wget https://www.python.org/ftp/python/3.7.0/Py...
2021-03-29 08:45:04
404
原创 opencv打包成exe在win7运行报错
opencv打包成exe在win7运行报错1、安装过程错误警告opencv版本:3.4.3打包环境:win10运行环境:win7opencv报错:2、解决方案opencv插件打包提取码: fp7v将 api-ms-win-downlevel-shlwapi-l1-1-0.dll【System32】 放到 c:\windows\System32将api-ms-win-downlevel-shlwapi-l1-1-0.dll【SysWOW64】 放到C:\Windows\SysWOW64
2021-03-26 11:26:33
529
转载 python中threading开启关闭线程
python中threading开启关闭线程https://blog.youkuaiyun.com/qq_15181569/article/details/93299164python中threading开启关闭线程
2021-03-18 20:04:25
596
转载 Redis实现分布式锁
转载:Redis实现分布式锁https://blog.youkuaiyun.com/kongmin_123/article/details/82080962
2020-12-29 17:52:52
85
原创 django rest_framework认证梳理
django rest_framework认证梳理1、2、流程:1、入口:self.dispatch()2、对request进行封装:request = self.initialize_request(request, *args, **kwargs) self.request = request 获取定义的认证类(全局/局部),通过列表生成式创建对象进行认证 如果未定义认证类列表,则使用默认的两个认证类 def initialize_request
2020-11-29 17:07:06
130
原创 python-爬虫-woff静态字体-映射方法之一(大众点评字形与编码的对应关系)
woff字体可在font editor查看映射关系思路:1、通过selenium截取整个页面2、使用Image截取每个字体,3、使用图片识别技术(推荐百度云文字识别)import osfrom time import sleepfrom PIL import Imagefrom selenium import webdriverdriver = webdriver.Chrome('D:\chromedriver_win32\chromedriver.exe')driver.get
2020-05-12 19:21:58
2449
原创 Flask框架中自定义模型类的表名、父类相关问题分析
关于继承父类model,为子model自定义表名的设置1、单张表设置表名_tablename_ = ‘model name’此字段必须是继承自models.Model才可设置。2、有继承关系的表设置表名如果其他model继承自BaseModel,那么__tablename__将失效,默认表名为父类表名。要想自定义子类表名,需要在父类model中添加**_abstract_ = Tru...
2020-04-09 16:07:52
556
原创 flask migrate创建迁移脚本无效
前面的步骤就先不说了,也就是初始化migrate、绑定Manage。1、首先使用init初始化2、生成迁移文件此时可能会出现如图问题,前提是已经创建model。问题所在:创建的model对象系统不知道,没有告诉系统,也就是没有实例化对象。因此需要在views中导入要迁移的model,系统才知道要迁移哪个模板。...
2020-04-07 17:28:25
436
一个基于AWS Glue + RedShift + Athena + 可视化平台的数据分析架构图
2024-02-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人