- 博客(151)
- 收藏
- 关注
原创 jedis和lettuce连接驱动的差别
Lettuce基于Netty的多路复用的异步非阻塞的连接方式。2.基于Netty框架的事件驱动通信,可以异步的。Jedis基于TCP的阻塞性的连接方式。3.适合于分布式的缓存。
2023-12-11 22:01:52
510
原创 数据治理-元数据定义
(6)数据整合:数据源、数据目标、数据转换规则、数据血缘关系、ETL工作流、EAI、Ell、迁移和变换。(8)文档内容管理:非结构化数据、文档、术语分类、本体、命名集合、法律发现、搜索引擎索引。(11)物理数据模型:文件、表、列、视图、业务定义、索引使用、性能、变更管理。〈12)流程模型:职能、活动、角色、输人/输出、工作流、业务规则、定时、存储。(13)系统群和IT治理:数据库、应用程序、项目和计划、整合路线图、变更管理。(5)数据治理:政策、标准、程序、项目、角色、组织和管理职责安排。
2023-12-11 10:28:37
642
原创 大数据开发数据治理方向
数据质量合规:1.流程化,任务上线/变更流程,指标变更流程 2.dqc管控:对原4大基础dqc进行补充以及核心业务模型dqc补充,并对原无效dqc下线,对常触发dqc进行调整(例如表行数波动,可通过算法对近7天数据量监测) 3.sla及基线治理(这里也可以放到人员运维roi治理中):上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份快恢能力临时修复数据 4.上游问题数据治理:数据质量长期监测体系(详情见课程3-数据质量课件)
2023-11-10 08:58:03
307
原创 两种不同的oracle jdbc url格式
格式:jdbc:oracle:thin:@ServerIP:Port:SID 或 jdbc:oracle:thin:@//ServerIP:Port/service_name。
2023-05-30 15:37:11
904
原创 jdbc impala查询报错, java.sql.SQLException: [Simba][ImpalaJDBCDriver](500051) ERROR processing query/sta
java.sql.SQLException: [Simba][ImpalaJDBCDriver](500051) ERROR processing query/statement. Error Code: java.net.SocketException: Broken pipe (Write failed), SQL state: HY000, Query: select count(*) from
2023-04-11 10:52:29
1652
原创 git 删除提交记录
删除本地最后一条记录,如果需要删除最后提交的N条记录,将“1”替换为一个具体的数字“N”即可。git remote rm origin (删除关联的仓库)右键打开 git bash here。就清除了git版本控制信息。////查看关联的仓库。////删除关联的仓库。
2023-04-04 09:20:50
918
原创 flink catalog
Catalog 使用户能够引用他们数据系统中的现有元数据,并自动将它们映射到Flink的相应元数据。例如,Flink可以将JDBC表自动映射到Flink表,用户不必在Flink中手动重写DDL。或者是永久性的元数据,比如Hive元存储中的元数据。Catalog 提供了一个统一的API来管理元数据,并使其可以从表API和SQL查询中访问。Catalog提供元数据,如数据库、表、分区、视图,以及访问存储在数据库或其他外部系统中的数据所需的函数和信息。它可能是暂时性的元数据,如临时表,或针对表环境注册的。
2023-04-03 16:43:06
335
原创 Kafka 消息过期策略(时间相关参数)
retention.ms=1小时的毫秒数,delete.retention.ms=7天的毫秒数,segment.ms=7天的毫秒数。在这种配置下,retention.ms=1小时的毫秒数 生效,kafka offset中数据已经不可见,flink也无法消费到数据。在新建topic的时候附加 retention.ms=1小时的毫秒数 这样的配置,背景:在不需要重启kafka的情况下,需要针对特定的topic做消息过期时间配置。(Kafka offset配置)retention.ms。标记delete时效。
2022-11-15 13:58:01
4647
原创 hql创建指定日期表
SELECT DATE_ADD(start_date, pos) ddFROM (SELECT ‘2022-03-01’ AS start_date, ‘2022-03-30’ AS end_date) tempLATERAL VIEWPOSEXPLODE(SPLIT(SPACE(DATEDIFF(end_date, start_date)), ‘’)) tAS pos, val
2022-03-24 16:50:42
201
原创 hive的groupby,with cube,with rollup
GROUP BY a, b, c WITH CUBE is equivalent toGROUP BY a, b, c GROUPING SETS ( (a, b, c), (a, b), (b, c), (a, c), (a), (b), ©, ( )).ROLLUP clause is used with GROUP BY to compute the aggregate at the hierarchy levels of a dimension.GROUP BY a, b, c with RO
2021-12-23 20:27:45
1045
1
原创 数据胡,湖仓一体
数据湖是一种设计理念:实现以下几点:能够存储海量得原始数据能够支撑任意得数据格式有较好得分析和数据处理能力不断完善得数据湖理念:不断发展得理念:湖仓理念
2021-12-13 20:11:15
141
原创 flinkcdc-mysql自定义反序列化器
package com.atguigu.app.func;import com.alibaba.fastjson.JSONObject;import com.alibaba.ververica.cdc.debezium.DebeziumDeserializationSchema;import io.debezium.data.Envelope;import org.apache.flink.api.common.typeinfo.BasicTypeInfo;import org.apache.f
2021-12-02 11:40:16
1446
转载 大数据领域现状flink,storm,sparkstreaming,sql引擎
Hadoop 生态组件竞争激烈,Spark 优势明显,MapReduce 已进入维护模式 曾有开发人员表示,Hadoop 主要是被 MapReduce 拖累了,其实 HDFS 和 YARN 都还不错。堵俊平( 腾讯云专家研究员)则认为 MapReduce 拖累 Hadoop 的说法并不准确: 首先 MapReduce 还是有应用场景,只是越来越窄,它仍然适合某些超大规模数据处理的批量任务,且任务运行非常稳定; 其次,Hadoop 社区对于 MapReduce ...
2021-11-03 18:52:45
351
原创 大数据Kudu
Kudu导读什么是 Kudu操作 Kudu如何设计 Kudu 的表Table of Contents1. 什么是 Kudu1.1. Kudu 的应用场景1.2. Kudu 和其它存储工具的对比1.3. Kudu 的设计和结构2. Kudu 安装和操作2.1. 准备初始环境2.2. 配置 Yum 源2.. 使用 Java 操作 Kudu2.. 使用 Spark 操作 Kudu4. Kudu 表和模式...
2021-11-03 18:42:15
552
原创 程序员作息,现状
早上7:00 还有一个两个小时上班,再睡一会早上8:30 哇哇哇,要迟到了,赶紧骑小黄赶过去 还好及时赶上早上9:00 同事扯扯淡,接水喝,上个厕所上午10:00 划水、摸鱼上午11:00 划水、摸鱼上午12:00 终于到了吃饭时间了下午14:00 休息好了,开始一天的编码工作下午15:00 眼睛累的不行了,得出去转转买瓶水买瓶饮料啥的休息个十分钟下午16:00 编码中下午17:00 编码中下午18:00 哦下班了,赶紧吃饭晚上19:00 划水晚上20:00 把今天写的bug提交gi
2021-10-19 14:13:02
2998
原创 iterm2设置跳转堡垒连接服务器jps
vi ~/.zshrcalias tiao="ssh -p 2222 -i /Users/xxx/xxx.xxxx-jumpserver.pem邮箱地址"source ~/.zshrcssh-add -k /Users/wenrui.li/Wenrui.Li-jumpserver.pem下载堡垒机的秘钥保存的下面那个路径下在iterm2里面新建一个profile添加带命令的buttonssh -p 2222 -i /Users/xxx/xxx.liu-jumpserver.pem 邮箱地
2021-09-30 17:33:49
774
原创 Hbase面试题
Hbase是怎么写数据的? HDFS和HBase各自使用场景 Hbase的存储结构 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些 HBase的 rowkey 设计原则 HBase的列簇设计 HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别1. Hbase是怎么写数据的?Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值
2021-09-27 16:11:39
115
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人