
大数据 学习
文章平均质量分 96
leaeason
菜鸟
展开
-
数据仓库知识点总结(数仓分层建模、维度建模等)
数据仓库知识点总结推荐学习《华为数据之道》《数据仓库工具箱-维度建模权威指南》两本书。此文档是数据仓库建模的知识点总结文档,在持续更新中(2021-10-13)。文章目录数据仓库知识点总结1.数据仓库分层理论1.1数仓分层架构的好处1.2 数据仓库核心分层2.数据仓库建模方法论2.1 ER模型2.2 维度模型2.3 Data Vault模型2.4 Anchor 模型3.维度建模方法论3.1模型层次(数仓的分层理论)3.2 模型实施过程3.2 维度设计3.3 事实表设计4 数仓模型4.1 数仓模型需要原创 2021-10-13 10:01:55 · 1993 阅读 · 0 评论 -
Apache Flink 实战教程:CEP 实战(转载)
文章目录原文链接:一:Flink CEP 概念以及使用场景1.什么是 CEP2.Flink CEP 应用场景3.Flink CEP 原理二:Flink CEP 程序开发1.Flink CEP 程序结构2.Flink CEP 构成2.1 定义模式2.2 模式的属性2.3 模式的有效期2.4 模式间的联系2.5 多模式组合2.6 处理结果2.7 状态存储优化三:Flink CEP 的扩展1.超时触发机制扩展2.规则动态注入3.历史匹配结果清理总 结原文链接:Apache Flink 实战教程:CEP 实战原创 2020-09-24 20:13:07 · 1356 阅读 · 1 评论 -
Apache FlinkCEP实现超时状态监控(转载)
文章目录1. FlinkCEP源码简析1.1 DataStream和PatternStream1.2 Pattern、Quantifier和EventComparator1.3 NFACompiler和NFA1.4 PatternSelectFunction和PatternFlatSelectFunction1.5 SelectTimeoutCepOperator、PatternTimeoutFunctionCEP和CEPOperatorUtils2. FlinkCEP实现步骤3. FlinkCEP匹配超时原创 2020-09-18 10:27:17 · 612 阅读 · 0 评论 -
Flink CEP 超时预警实现案例
文章目录1. 案例-离厂超时预警 实现思路1.1 定义一个刷卡事件类1.2 定义一个事件模式(Pattern)1.3 Build pattern stream,模式匹配输出1.4 Use side output get timeout stream,获取超时输出流2. 其他可参考案例2.1 案例-订单超时统计2.2 案例-CEP 实现空气质量检测2.3 案例-Flink CEP实现超时状态监控1. 案例-离厂超时预警 实现思路利用Flink CEP 的实现思路,暂时没考虑其他的干扰条件。假定只刷卡 出原创 2020-09-18 10:22:50 · 3513 阅读 · 8 评论 -
Flink实时读取Mysql增量日志数据并写入GreenPlum/Mysql
FlinkStreamETL0.功能说明概括:利用Flink实时统计Mysql数据库BinLog日志数据,并将流式数据注册为流表,利用Flink SQL将流表与Mysql的维表进行JOIN,最后将计算结果实时写入Greenplum/Mysql。1.需求分析1.1需求实时统计各个地区会议室的空置率,预定率,并在前端看板上实时展示。源系统的数据库是Mysql,它有三张表,分别是:t_meeting_info(会议室预定信息表)、t_meeting_location(属地表,维度表)、t_meeting原创 2020-08-03 14:20:51 · 4134 阅读 · 9 评论 -
Maven安装(Windows+Linux)
Linux安装Mavenhttps://www.cnblogs.com/freeweb/p/5241013.htmlLinux安装MavenWindows 安装 Mavenhttps://www.cnblogs.com/liuhongfeng/p/5057827.htmlWindows 安装 Maven查看安装好的Maven原创 2020-07-13 18:39:43 · 137 阅读 · 0 评论 -
Flink实时读取Mysql数据库中增量日志数据
文章目录0.写在前面1.创建Maven项目2.Java代码3.运行示例0.写在前面需求描述:利用Flink实时计算Mysql数据中的增量数据方案:利用Canal实时读取Mysql数据库的Binlog日志,将其作为Kafka的生产者(Producer);然后利用Flink作为kafka的消费者(Consumer),读取Kafka中的数据。目前只是读取kafka中的数据,为Json格式,后面需要根据业务需求编写实时计算逻辑所用的版本 —>服务器:Kafka:Kafka 2.1.0-cdh6.2原创 2020-07-13 15:08:41 · 6562 阅读 · 13 评论 -
Hive学习(上)
文章目录1Hive概念1.1 Hive架构1.2 Hive与数据库的比较1.2.1 查询语言1.2.2 数据存储位置1.2.3 数据更新1.2.4 索引1.2.5 执行1.2.6 可扩展性2.Hive数据类型2.1 基本数据类型2.2 集合数据类型2.3 类型转化3.DDL数据定义3.1 创建数据库3.2 查询数据库3.2.1 显示数据库3.2.2 查看数据库详情3.3 修改数据库3.4 删除数据库3.4.1删除空数据库3.5 创建表3.5.1 管理表3.5.2 外部表3.5.3 管理表与外部表的相互转换3原创 2020-06-30 13:12:17 · 548 阅读 · 0 评论 -
CDH 6.2 集群更改IP地址
文章目录摘要步骤说明0需要修改的集群IP地址1.停止CDH集群服务2.修改mysql中scm元数据3.修改机器的cloudera-scm-agent的配置文件4.修改主机的IP地址6.修改集群的hosts文件7.重启集群服务8.更改IP地址之后的CDH集群界面摘要更改CDH集群的IP地址的说明文档步骤说明0需要修改的集群IP地址## 原集群IP地址cat /etc/sysconfig/network-scripts/ifcfg-ens160 集群IP: Master 10.252.96.50原创 2020-06-22 16:13:49 · 1501 阅读 · 0 评论 -
大数据实时计算及可视化相关组件介绍
大数据实时计算及可视化相关组件介绍文章目录大数据实时计算及可视化相关组件介绍1.实时数据平台架构2 日志数据实时采集2.1 Apache Flume原理简介2.1.1 Agent结构2.1.2 基本概念(Source、Channel、Sink)2.1.3 Flume关键特性2.2 Fluentd2.3 Logstash2.4 Chukwa2.5 Scribe2.6 对比分析3 消息队列3.1 Kafka原理简介3.1.1 Kafka架构与功能3.1.2 Kafka的特性3.1.3 Kafka应用场景3.原创 2020-06-08 18:28:24 · 3131 阅读 · 0 评论 -
宜信实时数据平台介绍
宜信实时数据平台介绍(根据相关资料整理)文章目录宜信实时数据平台介绍(根据相关资料整理)1.架构设计方案1.1 定位和目标1.2 整体设计架构1)统一数据采集平台2)统一流式处理平台3)统一计算服务平台4)统一数据可视化平台2.技术组件介绍2.1 数据总线平台DBus2.1.1 DBus设计思想2.1.2 DBus功能特性2.1.3 DBus技术架构2.1.4 DBus(Github链接)2.2 分布式消息系统Kafka2.3 流处理平台Wormhole2.3.1 Wormhole设计思想2.3.2 Wo原创 2020-05-24 19:11:38 · 1144 阅读 · 0 评论 -
Spark SQL, DataFrames and Datasets Guide
目录 1.Datasets and DataFrames2.Getting StartedStarting Point: SparkSession(编程入口)Creating DataFrames(创建DataFrame)Untyped Dataset Operations (aka DataFrame Operations):没有类型的数据集合操作Running SQL Queries Prog...原创 2020-03-22 17:57:31 · 353 阅读 · 0 评论 -
Spark Programming Guide
目录一、Spark Programming Guide1.Overview2.Linking with Spark连接3.Initializing SparkUsing the Shell4.Resilient Distributed Datasets (RDDs)弹性分布式数据集Parallelized CollectionsExternal Datasets(外部数据集)RDD Operati...原创 2020-03-22 17:52:30 · 286 阅读 · 0 评论