- 博客(7)
- 收藏
- 关注
原创 Hive - 数仓的分层理论
Hive - 数仓的分层理论大数据职业规划数据仓库 --> 数据开发 --> 数据挖掘 --> 全栈架构数据仓库的用途整合公司所有业务数据,建立统一的数据中心产生业务报表,用于作出决策为网站运营提供运营上的数据支持可以作为各个业务的数据源,形成业务数据互相反馈的良性循环分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果开发数据产品,直接或间接地为公司盈利数仓运行简图数仓分层1. 分层原因把复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理
2020-10-14 15:19:17
3784
1
原创 Flink v1.11 - 官网 - 部署与运维
Flink v1.11 - 官网 - 部署与运维Flink v1.11 - 官网 - 部署与运维一、集群与部署1.1 概览1.1.1 部署方式1.1.2 部署目标1.1.3 Application Mode1.2 Local Cluster - 本地集群1.3 Flink Downloads1.4 Hadoop Integration - Hadoop 集成1.5 Standalone Cluster - 独立集群1.6 YARN1.6.1 Quickstart1.6
2020-09-08 14:16:06
2700
1
原创 Flink - 尚硅谷- 大数据高级 Flink 技术精讲 - 3
附.项目实战1. 项目整体介绍1.1 电商用户行为分析1.2 项目模块设计2. 实时热门商品统计3. 实时流量统计3.1 PVTopN - 热点网站3.2 PV - 网站总浏览量3.3 UV - 网站独立访客数4. 市场营销商业指标统计分析4.1 APP 市场推广统计4.2 页面广告分析5. 恶意登陆监控5.1 Demo5.2 CEP6. 订单支付实时监控6.1 付款超时 - Cep Code6.2 付款超时 - Without Cep6.3.
2020-08-24 18:28:32
1035
1
原创 Flink - 尚硅谷- 大数据高级 Flink 技术精讲 - 2
七、Flink 时间语义与 Watermark7.1 Flink 中的时间语义7.2 设置 Event Time7.3 水位线 - Watermark7.3.1 基本概念7.3.2 WaterMark 传递7.3.3 WaterMark 注意点7.3.4 Watermark Demo八、ProcessFunction API(底层 API)8.1 KeyedProcessFunction 和 定时器(Timers)8.2 侧输出流(SlideOutput)8.3 CoP.
2020-08-24 18:26:35
1039
1
原创 Flink - 尚硅谷- 大数据高级 Flink 技术精讲 - 1
Flink - 尚硅谷- 大数据高级 Flink 技术精讲Flink - 尚硅谷- 大数据高级 Flink 技术精讲一、Flink 简介二、Quick Start2.1 环境2.1 Flink 安装包2.2 nc2.3 pom 配置2.2 批处理2.3 流处理三、Flink 部署3.1 Standalone 模式3.2 Yarn 模式3.2.1 Flink on Yarn3.2.2 Session Cluster3.2.3 Per Job Cluster
2020-08-24 18:22:11
4207
3
原创 DolphinScheduler使用文档
工作流任务调度系统:Apache DolphinScheduler工作流任务调度系统:Apache DolphinScheduler一、文档说明1.1 DolphinScheduler 说明1.2 相关网址1.3 名词解释1.4 DolphinScheduler 架构1.4.1 MasterServer1.4.2 WorkerServer1.4.3 ZooKeeper1...
2020-03-10 11:37:24
30435
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人