自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 starrocks 2.5版本日期递增,实现对应序号

6. 对于每个展开的元素,计算一个新的日期:`DATE_FORMAT(date_add('2024-08-05',(unnest - 1)),'%Y-%m-%d')`。`进行拆分,形成一个整型数组:`cast(split(lpad('1',(days_diff('2024-08-27','2024-08-05')*2)-1,'1;2. 生成一个由1组成的字符串,长度为天数差的两倍减1:`lpad('1',(days_diff('2024-08-27','2024-08-05')*2)-1,'1')`。

2024-08-27 16:10:21 1772 2

原创 帆软 单元过滤空值计算直通率 所有单元格列的乘积

0]{len(K4)!=0},",","*") 将,号替换成 * 号。0]{len(K4)!=0} 用于 过滤单元格的空值。EVAL() 返回任意表达式的结果。

2024-08-10 11:01:50 374

原创 第十七章 数据管理和组织变革管理

实际的意思是:组织是死的,不存在变革的说法,人才是变革的因素实际的意思是:如果不考虑人的个性因素。你和我都有不同的需求。那样的话呢,大家的要求是一致的,变革就很容易了,那变革为什么那么难呢?因为每一个人的要求都不一样。

2024-08-03 09:48:44 993

原创 第十六章 数据管理组织与角色期望

分散运营模式 优点:组织结构相对扁平,数据管理组织与业务线或IT部门具有一致性缺点:是让过多的人员参与治理和制定决策,实施协作决策通常比集中发布号令更加困难网络运营模式 优点:结构扁平、观念一致、快速组建缺点:需要维护和执行与RACI相关的期望集中运营模式优点:为数据管理或数据治理建立了正式的管理职位,且拥有一个最终决策人缺点:实施集中模式通常需要重大的组织变革混合运营模式优点:包含分散模式和集中模式的优点可以从组织的顶层制定适当的指导方向,并且有一位对数据管理或数据治理负责的高管。

2024-08-03 09:47:51 387

原创 第十五章 数据管理成熟度评估

是是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。

2024-08-03 09:45:21 1044

原创 第十四章 大数据和数据科学

信息收敛三角数据科学数据科学将数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。分析对比数据仓库主要用于描述性分析,提供事后的结论数据科学侧重于预测性和规范性分析,旨在为未来提供预测和决策支持。数据仓库关注已发生事情的总结,而数据科学强调对未来的洞察和预见。数据科学:预测性分析,洞察,未来可能会发生什么规范性分析,预见,我们该做什么才能保证事情发生数据科学的过程阶段。

2024-08-03 09:26:58 949

原创 starrocks2.5版本 实现字符串有序拼接

原始数据是 一行一行的,需要实现分组 合并TOP1,TOP2,TOP3 按顺序 直接用group_concat()函数在2.5版本是无法实现升序或者降序,所以我们可以通过合并数组 来实现升序或者降序,array_sort()系统默认升序, 如果需要降序的话可以通过reverse()来实现 通过以上的3个函数可以达到升序降序的效果;

2024-08-02 16:36:14 481

原创 第十三章 数据质量(重点)

与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。重要的数据先开始。高质量数据:达到数据消费者的期望和需求定义评估的目标确定要评估的数据识别数据的用途和数据的使用者利用待评估的数据识别已知风险,包括数据问题对组织过程的潜在影响根据已知和建议的规则检查数据记录不一致的级别和问题类型量化结果与数据管理专员、领域专家和数据消费者会面,确认问题和优先级使用调查结果作为规划的基础11.7 开发和部署数据质量操作管理数据质量规则测量和监控数据质量。

2024-08-01 17:27:34 929

原创 第十二章 元数据管理(重点)

元数据最常见的定义是 "关于数据的数据" ,元数据相当于图书馆里面的目录卡片。

2024-07-31 21:18:30 1470

原创 第十一章 数据仓库和商务智能(重点)

预测未来将要发生的事情数仓是已经发生的,为了BI,大数据是AI 是做数据预测的SCD 渐变类的维度RapidMiner(AI 数据挖掘) -- 低代码 SQL星型模型:是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相来连接,不存在渐变维度,所以数据有一定的冗余。比如:销售数据仓库中的星型模型雪花模型雪花模型:当有一个或多个维度表没有直接连接到事实表上,而是通过其他维度表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型去除了数据冗余。比如:销售数据仓库中的雪花模型。

2024-07-27 14:31:52 910

原创 第十章 参考数据和主数据

管理共享数据以满足组织目标,减少数据的冗余相关风险,确保更高的质量,并降低数据的成本重点:对共享的数据。通过建设标准,从而提高数据的质量共享的数据,标准化建设,提高数据质量列表。最简单的参考数据是由代码值和代码描述组成的列表交叉参考数据列表。不同的应用程序可以使用不同的代码集表 示相同的概念。这些代码集可能有不同的粒度,或者具有相同的粒度、 不同的值。交叉引用数据集可以在代码值之间转换分类法。分类参考数据体系根据不同级别的差异性获取信息。本体。

2024-07-24 19:53:09 879

原创 第九章 文件内容管理

文件和内容管理是指针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理文件管理没问题 难的是:内容管理 (因为NLP还不成熟) natural language processing结构化和非结构化数据都是需要管理的。

2024-07-22 19:23:18 816

原创 第八章 数据集成和互操作

数据集成和互操作(DII)描述了数据在不同数据存储、应用程序 和组织这三者内部和之间进行移动和整合的相关过程。

2024-07-17 14:18:02 1020

原创 第七章 数据安全

数据安全包括安全策略和过程的规划、建立与执行,为数据和信息 资产提供正确的身份验证、授权、访问和审计。

2024-07-15 19:18:59 1055

原创 第六章 数据存储和操作

数据存储与操作包括对存储数据的设计、实施和支持,最大化实现 数据资源的价值,贯穿于数据创建/获取到处置的整个生命周期。

2024-07-11 20:31:59 595

原创 第五章 数据建模与设计(重点)

数据建模是发现、分析和确定数据需求的过程,用一种称为数据模型的精确形式表示和传递这些数据需求什么是建模:是指表结构的设计,表是用来存储数据的。

2024-07-10 21:22:49 864

原创 第四章 数据架构(重点)

数据架构的基本结构3部分:具体体现在架构构成中的组件组件之间的相互关系管理其设计和演变的原则数据架构的构件包括当前状态的描述,数据需求的定义,数据整合的指引,数据管控策略中要求的数据资产管理规范(简单的总结来说,数据架构构件首先要解决当下的问题,同时也要预测未来的问题)定义组织中数据的当前状态提供数据和组件的标准业务词汇确保数据架构和企业战略及业务架构保持一致描述组织数据战略需求高阶数据整合概要设计整合企业数据架构蓝图。

2024-07-07 10:44:05 1130

原创 第三章 数据治理(重点)

数据治理数据被恰当的管理而不是直接的管理数据数据治理相当于监督和执行的职责分离,如图所示数据治理不是一次性的行为,数据治理是一个持续性的项目集,以保证组织一直聚焦于能够从数据价值和降低有关数据的风险。理解数据管理大于数据治理,数据治理是数据管理的11分之1数据治理是对数据管理的管理数据治理并不是直接管理数据数据治理包括2个核心内容组织架构各种各样的规章制度要建立起来数据治理要与IT治理(软件,硬件等)区分开。数据治理仅聚焦于管理数据资产和作为数据的资产的数据(总结一句话就是数据治理就是管理数据)数据治理内容

2024-07-06 23:22:11 1110

原创 第二章 数据处理伦理

数据处理伦理指如何以符合伦理准则的方式获取、存储、管理、使用和销毁数据建立在对错观念上的准则“在没有人看的情况下,正确地去做事(doing it right when no one is looking)”(W.Edward Deming)

2024-07-03 19:03:16 399

原创 第一章 数据管理

在信息技术中,数据也被理解为以数字形式存储的信息(尽管数据不仅限于已数字化的信息,而且与数据库中的数据相同,数据管理的原则也适用于纸面上的数据)数据既是对其所代表对象的解释,也是必须解释的对象数据管理(Data Management)是为了交付、控制、保护并提示数据和信息资产的价值,在其整个生命周期中制定计划、制度、规程和实践活动,并执行和监督的过程。

2024-07-03 18:35:06 937

原创 python re模块的作用

正则表达式是一种强大的文本处理工具,可以用来在字符串中执行复杂的搜索和替换操作。通过使用正则表达式,你可以定义一种模式,然后使用该模式来匹配、查找或替换字符串中的文本。快速截取我需要的内容。

2024-06-19 15:17:39 309

原创 oralce SQL生成从当前月的第一天开始到当前月的最后一天之间的所有日期临时表

这段 Oracle SQL 代码的目的是生成从当前月的第一天()之间的所有日期,包括首尾两天的日期。)开始到当前月的最后一天(

2024-05-18 13:58:39 231

原创 开窗函数的使用详解(窗口范围ROWS与RANGE详解)

函数名(参数) OVER (PARTITION BY子句 ORDER BY子句 ROWS/RANGE子句)由三部分组成: 函数名:如sum、max、min、count、avg等聚合函数以及lead、lag行比较函数等; over:关键字,表示前面的函数是分析函数,不是普通的集合函数; 分组子句:over关键字后面挂号内的内容;分析子句又由下面三部分组成: PARTITION BY :分组子句,表示分析函数的计算范围,不同的组互不相干; ORDER BY:排序子句,表示分组后,组内的排序方式; ROWS/

2024-01-25 20:21:01 2821 1

原创 SHELL脚本 获取yarn 任务运行时长,超过时间自动kill 并重新运行新的任务

【代码】SHELL脚本 获取yarn 任务运行时长,超过时间自动kill 并重新运行新的任务。

2023-10-30 20:03:05 606

原创 shell 脚本获取redis 指定hash 值

记录第一次用shell 脚本来获取redis 的值。

2022-10-29 19:33:47 1247

原创 练习与思考

#1.返回拥有员工的部门名、部门号。#2.工资水平多于smith的员工信息。#3.返回员工和所属经理的姓名。#4.返回雇员的雇佣日期早于其经理雇佣日期的员工及其经理姓名#5.返回员工姓名及其所在的部门名称。#6.返回从事"保洁工作"的员工姓名和所在部门名称。#7.返回部门号及其本部门的最低工资。#8.返回"销售部"所有员工的姓名。#9.返回工资水平多于平均工资的员工。#10.返回与SCOTT从事相同工作的员工。#11.返回与30部门员工工资相同的员工姓名与工资。#

2021-12-18 15:54:21 581 3

原创 2021-10-17

在这里插入代码片@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式

2021-10-17 09:14:12 140

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除