- 博客(22)
- 资源 (22)
- 收藏
- 关注
原创 数据仓库与数据中台的区别?
数据中台把数据统一之后,会形成标准数据,再进行存储,形成数据大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势在。成本是消耗性质的、是临时的、无法被复用的。总的来说,数据中台吸收了传统数据仓库、数据湖、大数据平台的优势,同时又解决了数据共享的难题,通过数据应用,实现数据价值的落地。数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用。
2023-04-09 15:47:12
339
原创 数仓分层介绍
对ODS层的数据进行清洗转换,满足数据标准化的需求,如对NULL值得处理,日期格式转换,字段合并,脏数据处理等。对DWD的数据按照各种维度或多种维度进行组合,对一些事实字段进行汇总统计。根据业务需要,由DWD和DWS层统计处理的结果,可直接供业务查询使用。保留原始数据,不对原始数据做任何处理。1、ODS原始数据层。2、DWD明细数据层。3、DWS数据汇总层。4、ADS应用数据层。
2023-03-19 23:19:13
256
原创 数据仓库为什么要分层?
把复杂的数据治理过程分解成多层来处理,每层只需处理简单的任务,方便问题的排查。规范数据分层,通过主题层数据,能极大减少重复研发,提升一次计算结果的复用性。真实数据和统计数据分离开。1、把复杂问题简单化。
2023-03-19 22:31:32
319
原创 Hadoop3.1.1源码编译--StagingTestBase.java:[647,23] cannot find symbol问题
StagingTestBase.java:[647,23] cannot find symbolStagingTestBase.java类在hadoop-tools/hadoop-aws/test目录下,属于测试类,可以删除。将hadoop源码目录hadoop-3.1.1-src/hadoop-tools/hadoop-aws/src/下的test目录移出后编译成功。...
2021-07-22 09:48:06
212
原创 Flink算子调用C语言.so文件
public interface Clibrary extends Library{// String path = Thread.currentThread().getContextClassLoader().getResource("sayhello").getPath(); Clibrary INSTANCE = (Clibrary) Native.loadLibrary("sayhello", Clibrary.class); int sayHello(); int add(int a,.
2021-03-23 17:26:30
1169
1
原创 FlinkSql配置Kerberos环境下的Kafka Source&Sink
1、配置flink-conf.yaml配置文件,将kerberos相关配置放开security.kerberos.login.use-ticket-cache: truesecurity.kerberos.login.keytab: /path/to/kerberos/keytabsecurity.kerberos.login.principal: flink-user# The configuration below defines which JAAS login contextsse
2021-03-19 10:14:39
2831
7
原创 数仓建设方法论
一、数仓分层1.1分层概念ods:原始数据层,存放原始数据。dwd:明细数据层,对原始数据进行清洗,如去空值、日期格式转换、数据脱敏、脏数据处理等。dws:数据服务层,对明细数据层进行轻度汇总。dwt:数据主题层,以dws层为基础,进行数据累积汇总。ads:数据应用层,为数据应用提供数据,指标等。1.2 数仓分层的意义1、把复杂的问题简单化。2、减少重复研发。3、使用数据与原始数据解耦。二、数仓理论2.1关系建模与维度建模...
2021-03-12 22:34:29
1115
原创 数据中台建设方法论
一、数据中台定义 数据中台是企业构建的标准的、安全的、统一的、共享的数据组织,通过数据服务化的方式支撑前端数据应用。一、数据中台建设基础 元数据管理是建设数据中台的基础。数据中台建设需要保证一张表只加工一次、同等含义的指标只有一个即需要保证统一数据模型,统一指标口径,实现这些需要元数据管理作为基础。元数据管理应包含数据字典、数据血缘、指标管理、数据地图。数据字典让我们知道数据的结构信息,数据血缘让我们知道一张表是怎么来的,指标管理让我们清楚的知道指标的业务含义,数据地图...
2021-03-07 19:51:02
698
原创 Flink 1.11.1 No ExecutorFactory found to execute the application
Exception in thread "main" java.lang.IllegalStateException: No ExecutorFactory found to execute the application.需要引入依赖:<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-clients_2.11</artifactId>
2021-01-04 20:29:14
178
原创 Scala与Java的关系
1、Scala语言诞生的小故事 Scala创始人马丁·奥德斯基(Martin Odersky)是编译器及编程的狂热爱好者,长时间的编程之后,希望发明一种语言,能够让写程序这样的基础工作变得高效,简单。所以当接触到JAVA语言后,对JAVA这门便携式,运行在网络,且存在垃圾回收的语言产生了极大的兴趣,所以决定将函数式编程语言的特点融合到JAVA中,由此发明了两种语言(Pizza&Scala) Pizza和Scala极大地推动了Java编程语言的发展。 jdk5.0的泛型,for循环...
2020-12-31 21:50:51
1925
原创 CDH Parcel包制作流程详解
CDH Parcel包制作流程详解背景介绍CDH可以很方便的添加一些大数据相关服务,但这仅限于cloudera公司提供。若想将第三方服务(如公司自己开发的组件)添加到CDH集群(托管在CDH上),需要按照一定的规则流程制作相关程序包,最后发布到CDH上。本文以开源项目dolphinscheduler的master服务打包成parcel包部署为例,详解cdh parcel包的制作详细流程。相关规则介绍一个完整的集成到CDH的parcel包应包含如下几个包:●parcel:以“...
2020-12-28 21:09:47
5564
11
原创 ClickHouse中文社区
https://clickhouse.tech/docs/zh/introduction/distinctive-features/
2020-11-20 09:37:16
1608
原创 flink on yarn 提交运行could not find a file system implementation for scheme ‘hdfs‘问题解决
12:50:44,201 WARN org.apache.flink.configuration.GlobalConfiguration - Error while trying to split key and value in configuration file /yarn/nm/usercache/root/appcache/application_1602660926640_0023/container_1602660926640_0023_01_000001/flink.
2020-10-31 12:14:58
3060
原创 ElasticSearch权限控制实战
1 简介 当前直接使用ElasticSearch以及通过Kibana访问时,没有做任何限制,没有做用户和权限的控制,安全性上有一定风险,因此通过ES提供的X-PACK来实现这一需求。官网简介如下:X-Pack是一种Elastic Stack扩展,可将安全性,警报,监控,报告和图形功能捆绑到一个易于安装的软件包中。 通过X-Pack组件可以无缝协同工作,但您可以轻松地启用或禁用要使用的功能(6.3版本后默认集成,免费功能可直接使用)。2 部署安装2.1生成证书借助elasticsearch-.
2020-09-03 22:01:39
3257
原创 Grafana集成Cloudera Manager监控指南
Grafana集成Cloudera Manager监控指南1 Cloudera Manager数据源●下载foursquare-datasource-plugin-clouderamanager-v0.9.2 cdh插件,解压插件到grafana的data/plugins目录下,重启grafana,开源的foursquare-datasource-plugin-clouderamanager-v0.9.2 cdh插件无法直接使用,会出现dateMath.parse is not function错.
2020-09-01 09:39:54
1430
8
原创 Prometheus技术讲义
Prometheus技术讲义1简介Prometheus是一个开源的系统监控和告警系统,现在已经加入到CNCF基金会,成为继k8s之后第二个在CNCF维护管理的项目,在kubernetes容器管理系统中,通常会搭配prometheus进行监控,prometheus支持多种exporter采集数据,还支持通过pushgateway进行数据上报,prometheus在性能上可以支持上万台规模的集群。作为新一代的监控框架,Prometheus 具有以下特点:●强大的多维度数据模型。●时间序列..
2020-08-20 22:26:34
946
原创 FlinkSql on yarn 提交踩坑记录
FlinkSql on yarn 提交踩坑记录 最近需要实现一个flinksql执行引擎,实现前台只需关注sql编写,后台自动提交flinksql到yarn集群中,由于初次接触flinksql,对flinksql研究不深,在实现过程中遇到很多问题。其中一个问题研究了挺长时间,相信很多初次玩flinksql的朋友们也会遇到这个问题,所以在这里分享一下问题的解决方法。 我是在本地跑通了flinksql的kafk...
2020-08-01 22:17:33
3957
3
原创 Sylph安装过程遇到的坑及解决方法
Sylph安装过程遇到的坑及解决方法1、下载安装包由于官方没有提供编译好的安装包,且安装包编译过程很慢,我这边上传了该编译好的资源,点击下方链接下载。包下载解压后目录结构如下:链接:https://pan.baidu.com/s/1_BNqpl0pkWj-FyHgRT-E4Q提取码:qwer2、准备好Spark和Flink安装环境在etc/sylph/sylph-env.sh配置SPARK_HOME和FLINK_HOME已经HADOOP_CONF_DIRSylp...
2020-07-26 18:42:32
539
原创 Spark master和worker启动流程
一、master启动UML图1、在start-master.sh脚本中调用Mater.scala中的main方法2、在main方法中封装spark参数,并调用startRpcEnvAndEndpoint()创建RpcEnv3、在startRpcEnvAndEndpoint中创建RpcEnv(AkkaSystem),创建masterEndPoint(actor),new M...
2019-08-13 22:24:47
912
原创 CDH集群搭建总结
Centos6.7 + CDH5.4.5HADOOP 集群环境离线安装 目录Centos6.7 + CDH5.4.5. 1HADOOP 集群环境离线安装... 1一、集群系统环境准备... 41. 环境介绍... 42. 安装文件...
2018-08-14 13:00:46
731
1
kafka可视化管理工具
2022-08-16
基于Trino358和Carbondata2.2.0编译的Trino Carbondata Plugin
2022-08-16
apisix-dashboard-2.0-rc2.tar.gz
2020-11-10
apisix-2.0-0.el7.noarch .rpm
2020-11-10
grafana-6.7.4.linux-amd64.tar.gz
2020-09-06
grafana-6.7.x.zip
2020-09-06
foursquare-datasource-plugin-clouderamanager-v0.9.2-0-g9ac3d25.zip
2020-08-31
go1.15.windows-amd64.msi
2020-08-21
Prometheus.docx
2020-08-20
Flink基础讲义.docx
2020-08-19
sql_exporter-0.5.linux-amd64.tar.gz
2020-08-19
大数据之flink教程-TableAPI和SQL.pdf
2020-07-27
flink-1.8.1-bin-scala_2.11.tgz
2020-07-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人