- 博客(29)
- 资源 (1)
- 收藏
- 关注
原创 selenium 常用方法
`find_elements(by=By.ID, value=None)`:在当前元素的子元素中查找多个元素,返回元素列表。- `rect`:获取元素的位置和大小信息,返回包含 `x`、`y`、`width` 和 `height` 的字典。- `location`:获取元素在页面上的位置,返回包含 `x` 和 `y` 坐标的字典。- `size`:获取元素的尺寸,返回包含 `width` 和 `height` 的字典。- `get_property(name)`:获取元素的指定属性。
2025-04-07 17:19:05
453
原创 金融监管体系的改革推动行业进入超级监管时代
进入数字化时代,金融科技监管要求趋严,要统筹发展与安全,抓好生产、研发、数据、网络、新技术等全方位安全,按照《网络安全法》《个人信息保护法》及其他监管规定要求,完善前中后台“三道防线”建设,稳妥地推进数字化转型,既要防“灰犀牛”,也能防“黑天鹅”。未来监管机构将充分利用数字化技术,加速新型取证工具和分析系统的研发和使用,同时建立智能金融监管信息共享平台,加强各监管机构之间的信息共享和协作,增强关键监管活动的规范性和透明度,提升监管能力和监管效能。银行业要发挥好数据、技术双要素作用,推动金融高质量发展。
2025-03-17 16:59:31
340
原创 监管报送数据集市思路
目前不外乎直接提供数据查询服务(通过BI工具或类似)、开放数据查询采集权限、送数据到数据仓库等,总体上来说由监管数据集市承接是有利于整个监管报送,但需要另外投入资源才行,否则由现有人员直接承接是一个不友好的模式,从我行全行角度看,投入少量比例的固定工作量支持,再加上数据采集人员的应急是比较好的一个方案。首先,需要理清数据集市和报送平台的定位。作为负责监管报送数据集市的责任人,深感责任重大,且严重缺乏对报送制度和报送问题的了解,本着干中学的精神,全力做好项目,特开展记录,以便随时学习反思。
2025-03-17 15:45:17
242
原创 ArgoDB Holodesk表格式对应的小文件合并
当进行频繁的小数据量的写入操作,会导致出现大量的 base/delta 文件,并且内容很少(KB 级别),因此为了避免出现IO开销大,影响性能,内存占用高等一系列问题,小文件合并功能至关重要。本案例中,我们选择最近 7 天中,Compact 任务执行超过 5 分钟,且表的小文件数量大于 10 的条件进行筛选,列出小文件数量最多的 3 个表,我们可以基于此信息判断是否存在较多 Compact 慢的表,然后调整 Compact 参数,例如频率、资源分配等。菜单页面,我们可以查看各表当前的小文件数量。
2024-04-16 20:09:38
785
1
原创 ArgoDB分区合并
归档分区表的本质为范围分区表,所以创建语句与创建范围分区表一致,只需额外设置表参数"archive_partition"="true" 来区分为归档分区表。支持直接创建归档分区表和修改普通范围分区表为归档分区两种方式。,用户可以跨分区进行合并,将大量小文件合并成较大的文件,从而减少存储开销、元数据管理的开销以及处理时的任务调度开销。② 目前仅支持单值分区的合并成归档分区,,暂时不支持归档分区的再次合并;星环分布式分析型数据库ArgoDB在6.0及后续版本中。① 已经合并的分区不支持原有的修改操作;
2024-04-16 19:52:47
282
原创 python D1
词法分析Python 程序由 解析器 读取,输入解析器的是 词法分析器 生成的 形符 流。词法分析器怎样把文件拆成形符:Python 将读取的程序文本转为 Unicode 代码点;编码声明用于指定源文件的编码,默认为 UTF-8,详见 PEP 3120。源文件不能解码时,触发 SyntaxError。如下注意点:1、编码声明Python 脚本第一或第二行的注释匹配正则表达式 coding[=:]\s*([-\w.]+) 时,该注释会被当作编码声明;这个表达式的第一组指定了源码文件的编码。
2023-12-07 22:20:59
136
原创 通过工具将本地文件批量写入Holodesk
Impexp 工具借助多线程、pipeline 并行执行等方式实现高效写入,满足用户大规模数据写入需求图 5.2.1:通过工具批量导入。
2023-10-10 12:53:49
292
原创 用string代替oracle或者DB2的char和varchar,有什么注意的地方
可变长度的字符,其生成时会带有一个长度指定数(1和65355之间),用来定义字符串中的最大字符数。具体要看数据库使用的字符集,比如GBK,汉字就会占两个字节,英文1个,如果是UTF-8,汉字一般占3个字节,英文还是1个。而在ArgoDB中CHAR(n)、VARCHAR(n)、VARCHAR2(n)中的n的长度指的是unicode编码的长度,而不是字节长度,即n表示可以存储多少个字符。可变长度的字符,VARCHAR2生成时会带有一个长度指定数(1和65355之间),用来定义字符串中的最大字符数。
2023-10-10 11:39:58
390
原创 Argodb事务操作探索
更新操作可能是插入一条到base文件,再插入一条带有“delete”标记的记录到delta文件。2)当进行频繁的小数据量的写入操作,会导致出现大量的base/delta文件,并且内容很少(KB级别)ArgoDB的compact操作的主要目的是为了减少小文件数量,但是跨分区不能compact。对开发者来说,主要避免像TP库一样高频的做单条数据插入,这样会导致短时间内大量小文件。Argodb所有的写操作都会在底层写入一个新的文件,而不是写入已有文件中。举例:insert操作生成base文件,
2023-10-10 11:31:39
386
原创 db2和oracle 两种方言区别
方言影响存储的,比如有些字符串在A方言里是末尾补齐空格的,B方言是不补空格。如果用B方言读出来就以为空格是字符串里天生自带的,拿带着空格的字符串去处理,这种情况会引起一起不确定的行为。如果可以接受这个差异,并能够在业务脚本中处理这个情况,就可以混用db2和oracle方言,一般不建议混用。然后 比较的时候 我们都按照db2的方言忽略右空格去比较的 'a' = 'a '比如varchar2 我们存的时候是按 db2方言存的,'a '
2023-10-10 11:22:41
169
1
原创 ArgoDB分区分桶选取建议
假设有从1到10十个值,分配给三个Bucket,根据各值对10取模的结果,如图所示,为0的给第一个桶,为1的给第二个桶,为3的给第三个桶。扩展了单值分区的功能,使一个 Partition 能够包含某个字段值落在某一范围的所有记录,单值分区可能会因为某一分区字段值的记录数很多而导致数据严重倾斜到某一个分区,而 Range Partition 由于按照范围划分因此能够合并某些记录数少的单值分区,从而一定程度的避免了分区之间数据量差距过大的现象。分区表是一张逻辑表,不存储数据,数据实际是存储在分区上的。
2023-10-10 11:19:05
916
1
原创 系统表信息
udf 类型 (udf:输入单行数据输出单行数据;table_parameters_v 系统表存储了 ArgoDB 中所有表的各种属性的参数信息。table_parameters_v 系统表存储了 ArgoDB 中所有表的各种属性的参数信息。temporary_columns_v 系统表存储了 ArgoDB 中所有临时表的列信息。temporary_tables_v 系统表存储了 ArgoDB 中所有临时表的信息。temporary_tables_v 系统表存储了 ArgoDB 中所有临时表的信息。
2023-10-08 11:37:17
236
1
原创 数据倾斜时如何应对--倾斜key单独处理/MapJoin/SkewJoin的原理及使用方法
Common Join 的一个主要问题是在数据整理排序的过程上耗费了大量的资源,它会启动一个Task,Mapper会去读取两张表中的数据,然后处理数据后会对对他们进行排序、合并等操作,然后相同key的所有行数据都会分发到同一个节点上。但是MapJoin只适用于大表小表Join的情况,因为MapJoin会将指定表的数据全部加载在内存,表在被加载到内存后,数据大小会急剧膨胀,因此指定的表只能是小表。当存在大量倾斜key的时候,可以通过手动拆分,将倾斜与未倾斜的部分分别做处理,再将结果合并。
2023-10-08 10:09:19
273
1
原创 调整reduce个数
2)另外,有多少个reduce,就会有多少个输出文件,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,则也会出现小文件过多的问题;在设置reduce个数的时候也需要考虑这两个原则:处理大数据量利用合适的reduce数;使单个reduce任务处理数据量大小要合适;1)过多的启动和初始化reduce也会消耗时间和资源;(1)每个Reduce处理的数据量默认是256MB。(2)每个任务最大的reduce数,默认为1009。(3)计算reducer数的公式。设置每个job的Reduce个数。
2023-10-08 10:05:22
648
1
原创 TDH计算引擎针对数据倾斜现象的保护机制
Shuffle Write阶段当出现数据倾斜时将出现Bucket size is too large (>2G) after compress的报错提醒,此时应当调整reduce number或者调整分桶策略;
2023-10-08 09:58:38
900
1
原创 数据倾斜现象诱因、原理、影响
如果文件数量特别巨大,对文件读写的性能会带来比较大的影响,此外由于同时打开的文件句柄数量众多,序列化,以及压缩等操作需要分配的临时内存空间也可能会迅速膨胀到无法接受的地步,对内存的使用和GC带来很大的压力,在Executor内存比较小的情况下尤为突出,例如Spark on Yarn模式。当涉及到多个数据表时,JOIN是SQL中最常用的操作之一。JOIN的作用是将多个数据表中的数据组合在一起,从而使用户可以根据不同的条件组合过滤和查询多个表中的数据,最终提取记录形成一个新的结果集,实现数据关联和查询分析。
2023-10-08 09:56:36
199
1
原创 Spark计算框架
由于Spark Streaming采用了微批的处理方式,系统本身的吞吐量比较高,但是从应用的视角来看,数据从发生到计算结构的延时在500毫秒甚至以上,如果一个复杂逻辑涉及到多个流上的复杂运算,这个延时将会进一步放大,因此对一些延时敏感度比较高的应用,Spark Streaming的延时过高问题是非常严重的架构问题。除了Spark Core API以外,Spark还包含几个主要的组件来提供大数据分析和数据挖掘的能力,主要包括Spark SQL、Spark Streaming、Spark MLLib。
2023-10-08 09:53:21
81
1
原创 MR框架工作流程以及框架限制
后续Spark基于MR框架做了进一步的优化,解决了MapReduce计算框架的不足,基于内存和DAG的计算模式有效的减少了数据shuffle落磁盘的IO和子过程数量,实现了性能的数量级上的提升。在容错性方面,由于MapReduce的分布式架构设计,在设计之初即设定了硬件故障的常态性,因此其计算模型设计了大量的容错逻辑,如任务心跳、重试、故障检测、重分布、任务黑/灰名单、磁盘故障处理等机制,覆盖了从JobTracker、TaskTracker到Job、Task和Record级别的从大到小各个层级的故障处理。
2023-10-08 09:28:18
381
1
原创 如何计算Task数量来充分利用上CPU
因为任务的分配是以Task为粒度执行的,每一个Task同时只会执行在一个Executor上,是用一个vCore资源,因此如果要充分利用上CPU,就需要干预Task数量。默认会先2个Task执行(参数 ngmr.num.parts.try.limit 决定,limit不够再起新的task),因此不要进行大数据量的limit,性能非常差。因此可以看到,示例的任务中,stage4的task数位605,stage5的task数是1000,而stage6的task数就是600了。示例中就是裁剪后只剩1个task。
2023-10-07 17:13:44
204
1
原创 Beeline 命令行连接 ArgoDB
登录 Transwarp Manager 平台-,开启了LDAP 认证(轻量级目录访问协议)登录至该节点,进入客户端上传到的目录,执行。管理平台,在页面右上角,下载客户端。并将其上传至集群中任一节点中。:用于身份认证的用户名。:要连接到的数据库。:用户名对应的密码。
2023-10-07 15:11:13
336
1
原创 ArgoDB初见
支持标准 SQL 语法,提供多模分析、实时数据处理、存算解耦、混合负载、数据联邦、异构服务器混合部署等先进技术能力。通过一个ArgoDB数据库,就可以满足数据仓库、实时数据仓库、数据集市、OLAP、AETP、联邦计算、隐私计算等各种业务需求。星环云原生操作系统,提供资源调度功能,能够根据业务系统按需分配资源,当业务变化时,能够动态调整资源池。点评就是该项目前为虚假信息,纯吹牛,没有CBO、MBO,只有未知性能的RBO。数据库工具,提供提供一键部署、配置、升级、扩缩容,提供服务监控、告警功能。
2023-10-07 11:16:12
677
1
原创 杂记存稿1
--LINUXdu -sh * 查看各文件占用空间du -h --max-depth=1 查看各文件夹占用空间df -h 查看整体空间使用情况--------------DBCA--dbca -silent -createDatabase -templateName Data_Warehouse.dbc -gdbname MAZESIT -sid MAZESIT -systemPassword...
2022-09-12 23:19:54
106
原创 人生的智慧-概率之领悟
为了活着,永远做大概率事件!为了救命,永远相信小概率事件!动物界里,顶级的存在如虎、如豹、如狮、如犬、如狼、如豺等等,它们脚上都有厚厚的肉垫,走起路来静悄悄,还压低身子,就为了致命一击更加迅猛。而食草类的动物,牛啊、羊啊、马啊,驴啊,那蹄子都硬的很,走起路来滴滴答答的清脆,就是告诉天敌:“我来了,我来了。”食物链越高级的动物,风险意识越强,股市投资也是这个规律。东北,有一种动物叫做傻狍子,这玩意本不稀缺,但奈何太过单纯没有危险意识,生生把自己这个品种玩成了保护物种。它们好奇心很重,遇到任何事情都会跑
2022-05-01 23:33:24
102
原创 ORACLE的impdp和expdp命令
EXP和IMP是客户端工具程序,它们既可以在客户端使用,也可以在服务端使用。EXPDP和IMPDP是服务端的工具程序,他们只能在ORACLE服务端使用,不能在客户端使用。IMP只适用于EXP导出的文件,不适用于EXPDP导出文件;IMPDP只适用于EXPDP导出的文件,而不适用于EXP导出文件。expdp或impdp命令时,可暂不指出用户名/密码@实例名 as 身份,然后根据提示再输入,如:exp...
2018-05-08 17:32:05
6277
原创 oracle自动导出查询的DOS程序
将下列内容保存成一个.bat文件,运行即可echo alter session set nls_date_format='yyyy-mm-dd hh24:mi:ss'; >test.sqlecho SET ECHO OFF NEWPAGE 0 SPACE 0 >> test.sqlecho set heading off >>test.sqlecho...
2018-03-23 16:47:13
369
原创 ORACLE静默安装
1. 登录到root用户下,检查以下包等是否存在,如果不存在,则需要安装:(root用户)检查:rpm -q package-name安装:rpm -ivh package-name--版本为下列版本或以上版本的binutils-2.19 gcc-4.3 gcc-32bit-4.3 依赖 gcc43-32bit gcc-c++-4.3 glibc-2.9glib...
2018-03-23 16:34:00
257
原创 Oracle 11g AMM设置
最近在部署ORACLE时,部署人员对PGA和SGA设置一筹莫展,其实可以用Oracle 11g的AMM的(默认是开启的)。我们在安装过程中,指定Oracle使用内存的百分比,这个取值就作为MEMORY_TARGET和MEMORY_MAX_TARGET的初始取值使用。如果这两个参数设置为非零取值,那么Oracle就是采用AMM管理策略的。同时,如果我们设置这两个参数为0,则AMM自动关闭。对应的SG...
2018-03-23 16:27:20
1663
银行指标库设计方案文档
2023-10-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人