- 博客(14)
- 资源 (3)
- 收藏
- 关注
原创 1.数据仓库概述
目录1.1 数据仓库概念1.2 数据仓库核心架构1.1 数据仓库概念数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。1.2 数据仓库核心架构...
2022-04-01 10:12:49
572
原创 3.维度建模之事实表
事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计。其包含与业务过程有关的维度引用(维度表外键)以及该业务过程的度量(通常是可累加的数字类型字段)。事实表特点事实表通常比较“细长”,即列较少,但行较多,且行的增速快。事实表分类事实表有三种类型:分别是事务事实表、周期快照事实表和累积快照事实表,每种事实表都具有不同的特点和使用场景,下面逐个介绍。...
2022-03-29 11:25:32
2290
原创 ClickHouse安装部署
ClickHouse支持运行在主流64位CPU架构(X86、AArch和PowerPC)的Linux操作系统之上,可以通过源码编译、预编译压缩包、Docker镜像和RPM等多种方法进行安装。本文着重讲解离线RPM的安装方法。环境准备1.下载RPM安装包需要下载三个安装包:clickhouse-client-20.8.7.15-2.noarch.rpmclickhouse-server-20.8.7.15-2.noarch.rpmclickhouse-common-static-20.
2021-06-28 15:23:45
941
转载 Flink流计算可视化平台
github 地址 https://github.com/zhp8341/flink-streaming-platform-web (建议)国内 gitee 地址 https://gitee.com/zhuhuipei/flink-streaming-platform-web一、简介flink-streaming-platform-web 系统是基于Apache Flink 封装的一个可视化的、轻量级的 flink web 客户端系统,用户只需在 web 界面进
2021-04-08 17:35:15
5343
原创 数据仓库的分层结构
为什么要分层?分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:数据结构清晰,每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。 方便数据血缘追踪,简单来说,我们最终给业务呈现的是一个能直接使用业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。 减少重复开发,规...
2020-05-06 11:14:48
2919
原创 星型模型与雪花模型的区别、分别有哪些优缺点
概念根据事实表和维度表的关系,可将常见的模型分为星型模型和雪花模型。在数据仓库的建设中,一般都会围绕着这两种模型来设计表关系或者结构。那么什么是事实表和维度表呢?在维度建模中,将度量称为“事实” ,将环境描述为“维度”。维度是用于分析事实所需要的多样环境。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。事实则紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来...
2020-05-05 11:06:40
25019
2
原创 数据回流表情符问题处理
问题:sqoop导入数据到mysql时,emoji表情符无法导入mysql问题。异常:Caused by: java.io.IOException: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x86\x95' for column 'address' at row 61 表情符回流条件表情符回流需满足以下条件:...
2020-04-15 20:46:31
564
2
翻译 Apache Flink v1.9(基本概念-术语)
Flink Application Cluster(Flink应用程序集群)Flink应用程序集群是专用的Flink集群,它仅执行一个独立的Flink作业。Flink集群的生命周期与Flink任务是绑定的。在job模式下,以前的Flink应用程序集群也称为Flink集群。与Flink Session Cluster对应。Flink Cluster(Flink集群)一种分布式系统...
2019-10-14 20:57:55
393
原创 数据回流upsert模式
背景现有的数据回流方案中,为避免数据重复,有一些前置操作(delete/truncate)。在回流之前执行这些操作会对查询造成一些瞬时影响。针对这种场景我们需要做一些优化(update or insert)。适用场景准实时项目回流(数据回流频繁) 数据累加型计算 无需删除之前计算结果要求数据加工表中包含唯一业务字段。实现方式原回流方式#删除目标表当天数据,避...
2019-10-11 18:03:01
3423
翻译 Apache Flink v1.9(应用开发-Flink DataStream API编程指南-概述)
目录容错控制延迟本地执行环境收集数据源迭代器数据接收器Flink中的DataStream程序是实现数据流转换的常规程序(例如,过滤,更新状态,定义窗口,聚合)。最初从各种源(例如,消息队列,套接字流,文件)创建数据流。结果通过接收器返回,接收器可以将数据写入文件或者执行标准输出(例如命令行终端)。Flink程序可以在各种环境中运行,独立运行或嵌入其他程序中。执行器可以在本地...
2019-07-01 20:19:28
828
翻译 Apache Flink v1.9(教程-设置教程)
本地安装教程只需几个简单的步骤即可启动并运行Flink示例程序。设置:下载并启动FlinkFlink可在Linux,Mac OS X和Windows上运行。为了能够运行Flink,唯一的要求是安装一个有效的Java 8.x环境。 Windows用户,请查看Windows上的Flink指南,该指南介绍了如何在Windows上运行Flink以进行本地设置。您可以通过发出以下命令来检查Java正...
2019-05-30 13:05:20
1704
翻译 Apache Flink v1.8(首页)
本文档适用于Apache Flink 1.8版本。 这些页面的建立时间为:05/27/19, 01:02:09 AM UTC.。Apache Flink是一个用于分布式流和批处理数据处理的开源平台。Flink的核心是流数据流引擎,为数据流上的分布式计算提供数据分发,通信和容错。Flink在流引擎之上构建批处理,覆盖本机迭代支持,托管内存和程序优化。...
2019-05-29 19:51:40
333
Spark快速大数据分析(清晰文字版)
2018-04-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人