大数据学习爱好者
想学好技术的年轻人
展开
-
Flink 1.14从简单到源码第三讲
Flink 简单到源码第三讲原创 2023-02-12 18:56:52 · 417 阅读 · 0 评论 -
Flink Table API & SQL(二)
1.Join Temporal Tables(Batch/Stream)Temporal Tables 是随时间变化而变化的表。• Temporal Table 提供访问指定时间点的 temporal table 版本的功能。• 主要用于维表关联• 仅支持 Blink plannerSELECT o.amout,o.currency,r.rate,o.amount * r.rateFROM Orders AS o JOIN LatestRatesFOR SYSTEM_TIME AS OF原创 2022-05-31 17:02:39 · 137 阅读 · 0 评论 -
Flink Table API & SQL(一)
1.Table API & SQL 核心概念1.1两种不同的计划器1.flink计划器,blink计划器。flink 计划器会讲分别转化成dataset和datastream的来实现批流一体。blink会讲批处理当作流处理的一种特例,全部转化成datastream。Blink 计划器会将多 sink(multiple-sinks)优化成一张有向无环图(DAG),TableEnvironment 和 StreamTableEnvironment 都支持该特性。旧计划器总是将每个sink都优原创 2022-05-29 20:53:15 · 142 阅读 · 0 评论 -
Flink 监控与运维
Flink 监控与运维1.metric1.2MetricGroup1.3 自定义 Counter1.4 自定义 Counter1.4 自定义 Gauge1.5 JMXReporter 应用2.Flink RestAPI 介绍与使用3.Checkpoint 的监控与优化3.1checkpoint 指标4.反压监控与原理5.Flink内存配置与调优1.metric<identifier, measurement>标识符-度量值Metric 类型:Counter计数器Gauge最简单的原创 2022-05-10 11:42:30 · 604 阅读 · 0 评论 -
基于flink实时数据仓库-第二讲flinkcdc
1.Flink CDC1.CDC 是什么CDC是Change Data Capture(变更数据获取),CDC是Change Data Capture(变更数据获取)。2. CDC的种类CDC主要分为基于查询和基于Binlog两种方式,我们主要了解一下这两种之间的区别:sqoop 查询数据sql 获取数据。3.Flink-CDC这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,开源地址:https://githu原创 2022-03-28 17:17:20 · 3062 阅读 · 0 评论 -
基于flink实时数据仓库-第一讲基本情况介绍
实时数据仓库1、电商实时数仓分层介绍1.1 普通实时计算和实时数据仓库比较1.2 实时数据仓库,项目分层2.实时需求概述2.1离线计算和实时计算比较2.2 实时需求种类3.统计架构分析3.1离线架构3.2 实时架构1、电商实时数仓分层介绍1.1 普通实时计算和实时数据仓库比较普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。时效性好,但是弊端是中间结果没有沉淀下来,复用性差。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。1.2 实时原创 2022-03-22 15:57:52 · 2800 阅读 · 0 评论 -
clickhouse 第一讲基础概念
clickhouse基础概念一.clickhouse 入门1.1 介绍1.2 特点1.2.1 列式存储1.2 多样引擎1.3 高吞吐能力1.4. 数据分区和线程并行1.5 不适合join二、数据类型2.1 整型2.2浮点型2.3布尔型2.4Decimal 型2.5 字符串2.6枚举类型2.7时间类型2.8 数组三、表引擎3.1TinyLog3.2 Memory3.3 MergeTree3.4 partition by 分区(可选)3.5数据在本地磁盘存储的形式3.6 primary key 主键3.7 o原创 2022-03-19 21:04:00 · 2551 阅读 · 0 评论 -
flink实战二 -用户行为分析二
用户行为分析二1.实时统计热门商品2.实时统计热门页面3.实时统计PV/UV/GMV4.实时统计广告点击5. 实时风控--实时黑名单1.实时统计热门商品需求:每隔5分钟统计最近1个小时热门商品实现思路:1.读取数据2.添加水位线,防止乱序。3.过滤用户行为4.按商品分组5.统计窗口数据:每个商品在当前窗口中的次数,6.按照窗口分组–每个窗口的topN7.商品ton的排序–每个窗口的topN8.打印输出2.实时统计热门页面3.实时统计PV/UV/GMV4.实时统计广告点击5.原创 2022-03-15 10:57:06 · 4023 阅读 · 0 评论 -
flink 面试题-1
Flink面试题1.简单介绍一下 Flink2.spark streaming与flink对比1.1 架构模型1.2 运行模型1.3 容错机制1.4 时间机制1.5任务调度原理3. Flink集群有哪些角色?各自有什么作用?4. Flink的并行度了解吗?Flink的并行度设置是怎样的?5.Flink的Slot和parallelism有什么区别?6.Flink有没有重启策略?说说有哪几种?7.用过Flink中的分布式缓存吗?如何使用?8.说说Flink中的广播变量,使用时需要注意什么?9.说说Flink中的原创 2022-03-14 21:17:50 · 1881 阅读 · 0 评论 -
Flink 实战一用户行为分析
用户行为分析实战一1.按照操作系统(iOS、Android..)分析新老用户1.按照操作系统(iOS、Android…)分析新老用户关键字:操作系统 os新老 isNewUser日志中就有新老用户的字段是没有新老用户的字段开发流程:1.数据清洗,过来event_type=start_up2.然后对数据进行选择对应的操作系统和新老字段并且计数3.按操作系统和新老字段为key,求和就是4.写入到redis。/** * 按照操作系统维度进行新老用户的统计分析 */pub原创 2022-01-14 23:13:51 · 1302 阅读 · 0 评论 -
第5讲-Flink state原理和应用二
checkpoint目录一.checkpoint 原理1.checkpoint 概述1.1 Checkpoint的简单想法1.2 checkpoint 恢复数据流程1.3 Chandy-Lamport 算法二.checkpoint 配置一.checkpoint 原理1.checkpoint 概述checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保证应用流图状态的一致性。1.1 C原创 2022-01-09 21:37:53 · 860 阅读 · 0 评论 -
第4讲-Flink state原理和应用一
flink 状态应用一、状态的概念?二、状态分类和状态的用法2.1.状态分类2.1.1 keyedState 状态2.安2.状态应用例子总结一、状态的概念?state 状态一般指一个具体的task/operator的状态。State可以被记录,在失败的情况下数据还可以恢复,Flink中有两种基本类型的State:Keyed State,Operator State,他们两种都可以以两种形式存在:原始状态(raw state)和托管状态(managed state).托管状态:由Flink框架管理的状原创 2022-01-08 22:27:15 · 644 阅读 · 0 评论