- 博客(72)
- 收藏
- 关注
原创 Presto集成国产达梦数据库
在数据治理过程中我们会使用presto做数据查询引擎,通过presto统一查询Hive、达梦数据库中的数据,但是presto本身并不支持达梦数据库,需要根据相关文档进行二次开发插件,并把插件部署到对应的目录中使得Presto支持查询达梦数据库,并可以用presto执行达梦数据库和Hive数据库之间的关联
2025-01-16 10:51:03
1128
2
原创 前端项目搭建和基础配置
这个模块主要是介绍从零开始搭建项目的一些操作,包含一些前端常用的配置,这里只是一部分,会在后续的文章中逐步进行补充和完善。
2025-01-16 10:41:54
688
原创 高斯DWS数据库根据数据业务时间以及指标周期判断是否滞后
在判断指标更新是否及时的过程中,需要根据指标的更新周期和更新时间判断指标更新是否及时,业务更新周期分别有每日、每小时、实时、每天、每月、每季度、每半年、每年、不定期、不更新等,代码中最细粒度只到天维度,小时级和分钟级不统计;
2024-04-12 18:12:07
702
原创 高斯DWS数据库日期时间格式转换-数据质量
在项目中有时候需要对时间日期字段进行规范化,比如业务时间各种各样格式的都有,甚至有部分存在不是日期时间格式,需要规范化字段和剔除掉不可用的脏数据;
2024-04-12 17:42:39
2242
原创 Seatunnel和web快速安装详解
Apache SeaTunnel里面的Connector对应的jar包需要自己下载,在执行自动下载jar包前,进入apache-seatunnel-2.3.3,查看vim bin/install-plugin.sh内容,主要内容就是下载jar包,默认是从mvvm下载,下载速度太慢,我这边安装了maven,并且配置了阿里云仓库,因此可以直接将下图中命令替换,从maven中下载,seatunnel提供了很多数据源jar包,需要下载好,否则会出现无法创建数据源等各种问题;看到是从阿里云下载的,等待下载完成即可。
2024-04-08 16:56:32
5468
8
原创 HIVE使用正则表达式截取金额信息
由于家里环境没有MRS Hive,因此使用Apache hive实现这个函数功能,MRS Hive如果可用则不用看此模块2.1。
2024-01-05 09:18:10
617
原创 Kafka安全认证机制详解之SASL_SCRAM
SASL/SCRAM 通过将认证用户信息保存在 ZooKeeper 的方式,避免了动态修改需要重启 Broker 的弊端。在实际使用过程中,可以使用 Kafka 提供的命令动态地创建和删除用户,无需重启整个集群。因此,如果打算使用 SASL/PLAIN,不妨改用 SASL/SCRAM 试试。不过要注意的是,后者是 0.10.2 版本引入的。
2024-01-05 09:15:01
3234
1
原创 Kafka安全认证机制详解之SASL_PLAIN
上面配置是新增了两个用户,admin和tly,这两个用户都是普通用户,KafkaServer中的username、password配置的用户和密码,是用来broker和broker连接认证。在本例中,admin是代理broker间通信的用户。这个时候使用auth.conf已经不能创建topic了,使用admin.conf可以创建,因为admin账号和配置的超级管理员一致;使用权限配置并且超级用户是admin,这个用户和我们上面配置的列表中的admin用户相互映射,每个机器都需要配置然后重启所有节点。
2024-01-02 17:18:22
3630
原创 数据治理之数据质量管理
数据质量表示数据是否能满足业务需求或达到某种标准,能够满足需求的数据就是高质量数据,不能满足需求的数据就是低质量数据。数据质量测量是指为了达到某种预期,按照一定的标准从数据质量维度进行衡量,以确定数据达到预期的程度。数据质量管理就是我们对数据整个的生命周期都要对数据的质量进行管控,对数据从计划、 获取、存储、 共享、 维护、 应用到消亡生命周期的每个阶段可能引发的数据质量问题, 进行识别、 测量、 监控、 预警等一系列管理活动, 并通过改善和提高组织的管理水平使数据质量获得进一步提高。
2023-12-27 09:21:37
2845
原创 数据治理之主数据管理
主数据(Master Data) 是具有共享性的基础数据, 可以在企业内跨越各个业务部门被重复使用, 比如, 可以是与客户、 供应商、 账户及组织单位相关的数据, 因此通常长期存在且应用于多个系统。主数据具有高价值、高共享、相对稳定的特性。主数据管理是集方法、 标准、 流程、 制度、 技术和工具为一体的解决方案。方法是指主数据梳理、 识别、 定义、 管理、 清洗、 集成和共享所需要的一系列咨询和管理方法。标准涵盖了主数据的分类、 编码、 建模、 清洗、 集成、 管理、 运营等的相关标准和规范。
2023-12-27 09:19:02
3668
原创 数据治理之数据标准管理
数据标准管理是数据管理的基础性工作,是企业数据治理的第一步。数据标准(Data Standards) 是指保障数据的内外部使用与交换的一致性和准确性的规范性约束。数据标准就是对一项事物的统一描述,防止有歧义存在。比如:对于销售来说,客户是购买企业产品的人员,对于财务来说,是发生财务往来,需要记账的人员,对于IT来说,需求部门;对于市场人员,想要购买我们产品的人。数据标准化是建立各部门数据共识过程, 是各业务部门之间沟通和各系统之间数据整合的基础。数据标准化是建立各部门共识的过程。
2023-12-25 13:08:15
2404
2
原创 数据治理之元数据管理
元数据是关于数据的组织、 数据域及其关系的信息, 简言之, 元数据就是描述数据的数据。举例:图书馆中的图书目录,或者一本书的目录。元数据管理是对涉及的业务元数据、 技术元数据、 操作元数据进行盘点、集成和管理。采用科学有效的机制对元数据进行管理, 并面向开发人员、 业务用户提供元数据服务, 可以满足用户的业务需求, 为企业业务系统和数据分析的开发、 维护等过程提供支持。可以从技术、 业务和应用三个角度理解元数据管理。
2023-12-20 23:40:02
3770
原创 数据治理之数据梳理与建模
概念:根据DAMA-DMBOK2的描述, 数据模型是一组反映数据需求和设计的数据规范与相关图示。举例:买房时看到楼盘模型,模型对应实际房子的户型、绿化、周围设置等。就像房子模型是对房子特征的描述一样, 数据模型就是对数据特征的描述。换句话说, 数据模型就是用来描述数据的一组简单易懂、 便于计算机实现的标准符号的集合。:::info所谓“数据梳理”即对企业数据资产的梳理。通过对数据进行梳理, 可以知道企业到底有哪些数据, 这些数据存在哪里, 数据的质量如何。
2023-12-20 23:13:28
2164
1
原创 一本书读懂数据治理
企业数据治理非常必要,它是企业实现数字化转型的基础,是企业的一个顶层策略,一个管理体系,也是一个技术体系,涵盖战略、组织、文化、方法、制度、流程、技术和工具等多个层面的内容。数据治理不是对“数据”的治理,而是对“数据资产”的治理。数据治理可以有效盘活企业的数据资产。
2023-12-01 18:01:39
506
原创 kerberos详解
Kerberos始于20世纪80年代早期麻省理工学院(MIT)的一个研究项目,是一个网络身份验证系统。Kerberos提供的完整定义是安全的、单点登录的、可信的第三方相互身份验证服务。
2023-12-01 17:28:54
2281
2
原创 高斯DWS数据库分页查询优化思路
高斯是分布式数据库,将会对数据进行分布式存储,会增加网络之间传输的性能损耗,因此尝试了下每个节点都保存一份数据,是否能增加查询速度,这个做法的弊端在于,数据会在每个查询节点都会存储一份,造成存储资源的浪费,在实际测试中,查询性能并不能得到提升。背景:数据仓库采用高斯DWS,API平台采用DBAPI,平台限制了一个请求最大3S,因此超过3S的请求将会被取消掉,请求3S并不是SQL执行3S,经过验证,SQL执行九百多毫秒请求就会被杀掉,当前表数据大概四百多万。
2023-11-20 10:07:54
1277
原创 Jenkins+gitlab实现自动化部署
Jenkins 是一个用 Java 编写的开源自动化工具,带有用于持续集成的插件。用于持续构建和测试您的软件项目,从而使开发人员更容易将更改集成到项目中,并使用户更容易获得新的构建。它还允许您通过与大量测试和部署技术集成来持续交付软件。Jenkins 集成了各种开发生命周期过程,包括构建、文档、测试、打包、模拟、部署、静态分析等等。Jenkins 借助插件实现了持续集成。插件允许集成各种 DevOps 阶段。如果要集成特定工具,则需要安装该工具的插件。例如 Git、Maven、Node 项目等。
2023-08-08 13:28:52
4378
原创 ShardingSphere-Proxy入门-安装到使用
从上面的结果可以不同的表分不到了不同的数据库,实现了垂直分片。根据实际数据库将需要的驱动放到对应的路径下(ext-lib)修改conf/server.yaml。偶数数取模入到db_1库的表中。显示上面的结果就是连接成功。并上传到conf下并重启服务。奇数取模入到db_2库的表中。
2023-05-31 18:04:15
1373
1
原创 Clickhouse MaterializeMySQL引擎详解
MaterializeMySQL是针对Mysql设计的,为了增强数据的实时性,很多解决方案会利用binlog将数据写入到Clickhouse中,为了能够监听到Binlog事件,需要采用类似于canal这样的第三方中间件,这样就会增加系统的复杂度。Clickhouse在20.8版本增加了MaterializeMySQL的database引擎,该database能映射到Mysql中的某个database,并自动在clickhouse中创建对应的ReplacingMergeTree。
2023-05-24 15:21:48
1062
原创 Clickhouse数据一致性详解
在查询语句后增加 FINAL 修饰符,这样在查询的过程中将会执行 Merge 的特殊逻辑(例如数据去重,预聚合等)。在 v20.5.2.7-stable 版本中,FINAL 查询支持多线程执行,并且可以通过 max_final_threads参数控制单个查询的线程数。FINAL 查询最终的性能和很多因素相关,列字段的大小、分区的数量等等都会影响到最终的查询时间,所以还要结合实际场景取舍。create_time 是版本号字段,每组数据中 create_time 最大的一行表示最新的数据;
2023-05-24 10:42:22
1370
原创 Clickhouse优化详解
索引列必须执行,Clickhouse中的索引列即排序列,通过order by执行,一般在查询条件中经常被用来充当筛选条件的属性被纳入进来,可以是单一的维度,也可以是组合维度的索引,通常是高级列在前、查询频率较大的列在前的原则,筛选后的数据满足在百万以内最佳。批量写入数据时,必须控制每个批次的数据中涉及到的分区的数量,在写入之前最好对需要导入的数据进行排序,无序的数数据或者涉及到的分区太多,会导致Clickhouse无法及时对新导入的数据进行合并,从而影响查询性能。
2023-05-24 10:42:08
2034
原创 Clickhouse入门之语法
ReplacingMergeTree是MergeTree的延伸,只是相比MergeTree多了一个去重的功能,因为MergeTree可以设置主键,但是主键并没有唯一约束,还是会重复,如果想去掉重复的数据就使用ReplacingMergeTree。建议尽可能以整数形式存储数据。稀疏索引的好处就是可以用很少的索引数据,定位更多的数据,代价就是只能定位到索引粒度的第一行,然后再进行进行一点扫描。主键,Clickhouse中的主键只提供了数据的一级索引,但是不是唯一索引,因此会存在主键相同的数据。
2023-05-19 17:01:29
4342
原创 Clickhouse入门之安装使用
clickhouse是2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。
2023-05-19 17:00:18
1298
原创 Hadoop之MapReduce实现原理-编程模型篇
一、编程模型概述1. MR接口体系结构2. 序列化3. Reporter参数4. 回调机制二、API解析1. 作业配置与提交1. 配置文件介绍2. MR作业配置与提交1. getSplits()方法2. createRecordReader()方法4. Mapper与Reducer。
2023-05-08 15:41:11
734
原创 Hadoop之MapReduce实现原理-基础篇
Task分为MapTask和ReduceTask,HDFS是以固定大小的block为单位存储数据,而MR是以split为单位处理数据,block是物理概念,split是逻辑概念,split只包含一些元数据信息,比如数据起始位置、数据长度、数据所在节点等,split的划分方法是用户自己决定的,但是split的数目决定了MapTask的数目,每个split会交由一个MapTask处理。待所有Task执行完毕后,整个作业执行成功。
2023-05-04 18:00:54
1969
2
原创 Hive分析函数详解:GROUPING SETS/CUBE/ROLLUP
cube和rollup的区别是CUBE会根据指定列进行所有组合,rollup会根据顺序从左到右进行组合可以使用grouping进行空值判断可以使用grouping__id进行粒度区分。
2023-04-18 10:28:57
1904
1
原创 Hive3.x集成Tez和Tez-ui详细步骤
执行任务并访问yarn的Tracking ui 将自动跳转到tez-ui。,注意文件夹名称的变化,上面我重命名过!编辑mapred-site.xml文件,并添加如下配置。我这里使用0.10.1版本,并上传到指定目录。将configs.env的权限改成777。在hive/conf文件夹下。
2023-04-17 09:59:46
1500
1
原创 Hive调优汇总
第一个MR Job中,Map的输出结果会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;2、文件的数量决定了MapReduce中Mapper数量,小文件越多,Mapper的任务越多,每个Mapper都会对应启动一个JVM来运行,每个Mapper执行数据很少、个数多,导致占用资源多,甚至这些任务的初始化可能比执行的时间还要多,严重影响性能;值为 + 正序排序,值为 - 倒序排序;
2023-04-07 09:34:35
1339
原创 MySQL调优之常见参数说明
在使用MySQL时DBA经常会对一些参数进行设置,从而提高服务器性能,对开发来说,这些设置也能够提升查询速度,是从服务参数方向进行设置的。所有的配置数据其实并不是越大越好,而是要根据实际情况进行调整,比如对内存的一些调整,如果过大会造成服务崩溃,所以实际在设置的时候应该是监控服务运行状态进行合理的调整。在参数调整后应该进行一段时间的监控,而不是应用能起来就可以了,可能在运行一段时间后程序才会出问题,所以在这块的优化应该适当的调整。
2023-04-04 15:45:49
756
原创 MySQL调优之查询优化
在很多应用场景中我们需要将数据进行分页,一般会使用limit加上偏移量的方法实现,同时加上合适的orderby 的子句,如果这种方式有索引的帮助,效率通常不错,否则的化需要进行大量的文件排序操作,还有一种情况,当偏移量非常大的时候,前面的大部分数据都会被抛弃,这样的代价太高。当表A和表B使用列C关联的时候,如果优化器的关联顺序是B、A,那么就不需要再B表的对应列上建上索引,没有用到的索引只会带来额外的负担,一般情况下来说,只需要在关联顺序中的第二个表的相应列上创建索引。
2023-04-04 09:18:21
867
原创 Mysql调优之索引优化
索引是为了加速对表中数据行的检索而创建的一种分散的存储结构。索引是针对表而建立的,它是由数据页面以外的索引页面组成的,每个索引页面中的行都会含有逻辑指针,以便加速检索物理数据。
2023-04-03 19:36:40
1035
原创 【创作赢红包】Mysql调优之执行计划
官方地址:官方描述:解释:EXPLAIN语句提供关于MySQL如何执行语句的信息。EXPLAIN与SELECT、DELETE、INSERT、REPLACE和UPDATE语句一起工作。EXPLAIN为SELECT语句中使用的每个表返回一行信息。它在输出中按照MySQL在处理该语句时读取表的顺序列出表。这意味着MySQL从第一个表中读取一条记录,然后在第二个表中找到匹配的记录,然后在第三个表中,以此类推。
2023-03-31 18:37:26
334
原创 Mysql调优之Schema与数据类型优化、范式、主键
应该尽量使用可以正确存储数据的最小数据类型,更小的数据类型通常更快,因为它们占用更少的磁盘、内存和CPU缓存,并且处理时需要的CPU周期更少,但是要确保没有低估需要存储的值的范围,如果无法确认哪个数据类型,就选择你认为不会超过范围的最小类型。整型比字符操作代价更低,因为字符集和校对规则是字符比较比整型比较更复杂。使用mysql自建类型而不是字符串来存储日期和时间。NULL列对mysql来说很难优化,会使得索引、索引统计和值比较都更加复杂,但是改为not null带来的性能提升比较小,可以忽略。
2023-03-31 16:59:26
136
Mysql测试数据 Mysql测试数据 Mysql测试数据
2023-03-26
leetcode题目精选
2023-03-15
JAVA设计模式教程,程序员必备,从浅入深
2023-03-15
springcloud汇总知识点,从零到精通
2023-03-15
CDGA思维导图图片!!! 重点知识点
2023-03-14
Flink知识点总结文档
2023-03-14
日期维表生成结果,日期对应年、月、对应自然周起止日期等维度
2023-03-11
DAMA语境关系图汇总总结
2023-03-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人