
Flink
文章平均质量分 80
peidezhi
这个作者很懒,什么都没留下…
展开
-
flink 分组聚合算子
flink reduce原创 2022-10-21 19:38:25 · 1215 阅读 · 0 评论 -
flink源码解读--3 CliFrontend.run
参考文档:https://blog.youkuaiyun.com/weixin_43161811/article/details/103152867入口命令(参看第一篇文章):java ClientFrontend run -c com.tclking.ai.PVUVDayMain -m yarn-cluster examples/batch/WordCount.jarClientFron...原创 2020-01-21 18:59:38 · 670 阅读 · 0 评论 -
flink源码解读--1 命令行提交
1 提交自己打包的流job./bin/flinkrun -c com.tclking.ai.PVUVDayMain -m yarn-cluster examples/batch/WordCount.jar2 flink 脚本内容:target="$0"iteration=0# 判断脚本名合法性while [ -L "$target" ]; do if...原创 2020-01-21 09:47:46 · 567 阅读 · 0 评论 -
flink源码解读--2 入口类CliFrontend
参考文章:https://blog.youkuaiyun.com/weixin_43161811/article/details/103151644从上篇文章,我们知道,flink脚本提交后,由CliFrontend main开始执行。/** Submits the job based on the arguments. */ public static void main(final...原创 2020-01-21 11:04:18 · 984 阅读 · 0 评论 -
Flink 写HDFS之BucketingSink
Flink写HDFS,目前常用的有 BucketingSink, StreamingFileSink. BucketingSink后续会被StreamingFileSink替代。不过功能实现都还是很强大的。 Streaming支持一些BucketingSink不支持的特性,如S3, parquet格式写等等,1 代码示例:impor...转载 2020-04-15 23:52:23 · 1921 阅读 · 0 评论 -
Flink读写Kerberos认证Kafka环境。
Flink比较完美的支持kerberos读写Kafka.1flink-conf.yaml , 将如下涉及kerberos的配置注解去除2 代码读写kafka示例如下:def main(args: Array[String]): Unit = { val params: ParameterTool = ParameterTool.fromArgs(args)...原创 2020-04-07 11:44:34 · 6215 阅读 · 4 评论 -
flink水印
1 kafka数据源,设置水印,一般直接在数据源消费者上加载。如下:2 水印并发度设置2.1 对于kafka数据源。 我们设置并发度一般设置topic对应的分区数。如果分区数为2,则为2。如果设置为4, 实际上即时启动了4个task,也只有2个真正消费数据并产生水印。另外2个task一致在等待,不会发出水印。如下图,为分区为2,设置并发度为4的情况,可以看...原创 2019-12-20 15:59:16 · 409 阅读 · 0 评论 -
flink checkpoint
1 原理flink通过checkpoint来进行状态保存,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态, 保证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport algorithm”算法,通过checkpoint频率时间定时发送barrier消息。 (分布式快照算)...原创 2019-11-20 18:59:07 · 448 阅读 · 0 评论 -
Flink内存管理: 网络传输内存network buffer及堆内存管理
1 Flink背压原理任务A写, 任务B读, 2者都是先申请 local buffer pool, 满了之后再向network buffer pool申请。消费下游: local buffer pool和network buffer pool满了之后,发送消息给上游(ResultSubparittion),上有不在发送消息,下游的 input channel将不会接受到新的数...转载 2019-11-18 20:47:18 · 3540 阅读 · 0 评论 -
flink yarn模式提交及查看日志
一、Yarn session(一般测试环境)yarn session会初始启动指定的tm数量。 job提交后再指定的session 内运行。其它job运行,如果资源不够,就会一直等待直到占用的job运行完毕释放资源。jm所有job共享1 在任意几点启动yarn-session:下述属性启动4个任务管理器。 每个任务管理器占用1024M内存,且每任务管理器分配2个SLO...原创 2019-10-15 19:44:42 · 14537 阅读 · 0 评论 -
flink安装:standalone模式及HDFS,KAFKA连接测试。
1 安装基于CDH6.2.0环境. hadoop版本3.0 spark版本2.4, 自带scala版本2.11.122 下载flink1.9http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.9.0/flink-1.9.0-bin-scala_2.11.tgz3解压tar -vxf fl...原创 2019-10-09 22:57:35 · 1237 阅读 · 0 评论