
stream
文章平均质量分 70
flink & spark streaming & kafka..
大怀特
万物之始,大道至简,衍化至繁
展开
-
flink监控(updating)
文章目录命令行查看指定任务Rest APIget命令行查看指定任务{{ ./bin/flink list -t yarn-per-job -Dyarn.application.id=application_1580534782944_0015 }}Rest APIget返回集群配置http://bigdatatestenv01:8088/proxy/application_1635919391152_9524/jobmanager/config返回所有job并返回当前状态http://原创 2022-03-08 14:14:05 · 1447 阅读 · 0 评论 -
Alink Is Now Open Source
By Yang Xu, nicknamed Pinshu at Alibaba.The progress ofFlinkin the machine learning field has long been the focus of many developers. This year, a new milestone was set in the Flink community when we open-sourced theAlinkmachine learning algorithm ...转载 2022-01-25 13:45:36 · 324 阅读 · 0 评论 -
Kafka3.0文档 - 2.0 APIS
Kafka3.0文档 - APIS2. APIS2.1 Producer API2.2 Consumer API2.3 Streams APIConnect API2.5 Admin API2. APISKafka包含5个核心APIs生产者API允许应用发送流数据到Kafka集群中的topics消费者API允许应用读流数据从Kafka集群中的topics流API允许转换输入的topic流到输出的topic流连接API允许实现连接器,它持续拉数据从数据源系统或应用,或推数据 从kafka到其它系翻译 2021-11-29 13:21:37 · 451 阅读 · 0 评论 -
APACHE KAFKA快速入门
文章目录1. 获得Kafka2. 启动Kafka环境1. 获得Kafka下载最新版本,解压$ tar -xzf kafka_2.13-3.0.0.tgz$ cd kafka_2.13-3.0.02. 启动Kafka环境运行下边命令为了启动按顺序正确服务.# Start the ZooKeeper service# Note: Soon, ZooKeeper will no longer be required by Apache Kafka.$ bin/zookeeper-server-翻译 2021-11-26 13:57:45 · 215 阅读 · 0 评论 -
Kafka3.0文档 - 1.0 Apache Kafka介绍
介绍什么是事件流我可以用事件流做什么Kafka是一个事件实时平台,这是什么意思用简短方式解释Kafka是怎样工作的主要概念和术语在10分钟内了解kafka的一些.什么是事件流事件流是数字的等同于人类体内神精系统. 对于始终在线的世界kafka是技术的基基础,业务越来越多的定义软件和自动化,用软件用户也导致有更多的软件.严格来讲,事件流是获得数据一个实践,从事件源像数据库,传感器,手机,云服务和流事件的软件应用.存储事情流为了过后检索.操作,处理,和对事件流的反应等同于回顾,在技术需要时路由实时事件流翻译 2021-11-25 14:13:09 · 426 阅读 · 0 评论 -
Apache Kafka 概览
概览特点生态系统可信的并且非常容易使用超过80%财富公司,100家公司使用kafka.kafka是开源分布式事件流平台,被数千家公司使用在高性能数据管道,流分析,数据整合,和关键核心程序.特点高吞吐: 在网络限制内传递消息,使用群集传递延时小于2nm.可扩展: 扩展生产集群到千台brokers,每天万亿条消息,数据量大小为P级数据,成千上万个分区.弹性伸缩存储和处理.永久化存储:在分布式,持久性,容错性集群中安全存储流数据.高可用:高效的伸缩集群通过zones或连接独立集群跨地理位置.生翻译 2021-11-25 11:12:37 · 115 阅读 · 0 评论 -
Flink1.13 DataStream API - Event Time - Builtin Watermark Generator
内建watermark生成器如前所述,Flink提供抽象给开发人员允许分配他们自己的时间戳和发送自己的watermark. 更多确切说,通过实现 WatermarkGenerator 接口可以做.这样的任务为了近一步简化编程,Flink提供了一些预实现的时间戳分配器.本文把他们逻辑出来. 除了开箱即用功能外,它们的实现可以做为自定义实现的一个例子.无变化增长的时间戳最简单的特例来生成periodic watermark 是当给定数据源任务是增量订单.在这个例子中,当前时间戳可以作为watermar翻译 2021-11-23 11:19:35 · 261 阅读 · 0 评论 -
Flink1.13 DataStream API - Event Time - Generating Watermarks
文章目录生成Watermarks介绍Watermark策略使用Watermark策略处理空置的数据源编写WatermarkGenerators编写Periodic WatermarkGenerator编写一个Punctuated WatermarkGeneratorWatermark策略和Kafka连接器怎样在操作中处理watermark过期的AssignerWithPeriodicWatermarks and AssignerWithPunctuatedWatermarks生成Watermarks本文翻译 2021-11-22 19:04:13 · 510 阅读 · 0 评论 -
Flink1.3 Checkpointing
在Flink中每个函数或是操作可以有状态(查看伴随状态详情).状态函数存储数据是通过处理独立的元素或事件, 使操作的任何复杂类型成为状态的核心块.为了使状态有容错性,Flink需要checkpoint状态. Checkpoints允许Flink恢复状态和流运行的位置,这样给应用无故障运行.流容错性文档描述Flink技术流处理容错机制细节.预备知识Flink checkpointing机制和流存储和状态相互作用.通常,需要:持久化的数据源可以在确定时间回复记录. 例如数据是可以持久化消息队翻译 2021-11-11 17:08:19 · 524 阅读 · 0 评论 -
Flink1.4 Checkpoints
概览Checkpoints可以拿Flink中的状态具有容错性,它是通过允许恢复状态和流原有的位置,因此使应用程序具有无故障运行语义.查看Checkpointing来为你的程序开启和配置checkpoints功能.checkpoint存储当开启checkpointing,管理状态被持久化来保证任务失败恢复到一致性. checkpoiting过程中持久化状态被保存在哪里是依赖选择什么Checkpoint存储.可用的Checkpoint存储选项Flink捆绑提供checkpoint存储类型翻译 2021-11-10 15:02:38 · 1166 阅读 · 0 评论 -
Flink1.14 - 生产就绪检查清单
生产就绪检查清单提供一个配置文件的概览,在投放到生产前应该应该细心考虑.虽然Flink社区尝试提供一些明智的配置,那也是非常重要的来确认每个选项是否满足你的需求.设置一个显示的最大并发数最大并发数设置在每个job和每个操作上,决定最大的并行,状态的并行是可以被扩容的. 在任务开始时目前没有办法改变操作的并行,不丢失操作状态. 存在最大并行数的原因, 对比允许操作状态被无限扩展,是因为你的应用性能的状态的太小会被影响. 一般来说,你应该用最大的并行度,足够适合你以后的扩展,同时 保持他满足你最小的性能翻译 2021-11-09 13:37:33 · 198 阅读 · 0 评论 -
Flink侧输出流
除了从DataStream操作输出主结果流外,也可以生成任一数量的额外的侧输出流.结果流可以和主输出流的类型可以不匹配,并且侧输出流可以有不同类型.侧输出流的操作当你分流时非常有用,之前你需要先复制一个流再过滤出来,有了侧输出流,就不需要这样操作.当使用侧输出流时,首先需要定义一个OutputTag,它将要被用来确定一个侧输出流.val outputTag = OutputTag[String]("side-output")注意:侧输出流的类型是根据侧输出流包括元素的类型来确定.可以从.翻译 2021-11-02 16:31:54 · 3225 阅读 · 0 评论 -
spark streaming数据背压(积压)
$SPARK_HOME/bin/spark-submit --num-executors 1 --executor-memory 1g --executor-cores 1 --master yarn --deploy-mode cluster \--conf spark.streaming.backpressure.enabled=true --conf spark.streaming.backpressure.initialRate=1000 --conf spark.streaming.stopG.原创 2021-10-29 07:02:42 · 1632 阅读 · 0 评论 -
Spark Streaming编程指南(updating)
SparkStreaming是Spark Core API的扩展, 拥有可扩展,高吞吐,可容错的实时处理数据流.数据能够从很多数据源抽取数据,像Kafka,Flume,Kiness,Or TCP Socket,并且可以用像map,reduce,join和windows这样的高级函数来表示复杂算法.最后可以把数据输出到文件系统,数据库和仪表盘.实际上你可以应用Spark的机器学习和图计算在流处理上.在内部他的工作如下,SparkStreaming 接收实时输入流并且隔开数据成批,批数据然后被S翻译 2021-10-26 18:23:14 · 334 阅读 · 0 评论 -
Flink join(updating)
broadcast1.官网解释广播状态被引入以支持这样的用例:来自一个流的一些数据需要广播到所有下游任务,在那里它被本地存储,并用于处理另一个流上的所有传入元素。作为广播状态自然适合出现的一个例子,我们可以想象一个低吞吐量流,其中包含一组规则,我们希望根据来自另一个流的所有元素对这些规则进行评估。考虑到上述类型的用例,广播状态与其他操作符状态的区别在于:(1)它是一个map格式(2)它只对输入有广播流和无广播流的特定操作符可用(3)这样的操作符可以具有具有不同名称的多个广播状态。2.原创 2021-10-13 23:23:48 · 101 阅读 · 0 评论 -
Flink 1.14 发版说明(Updeting)
此次版本记录讨论是flink1.13与1.14之间的之前的改变,主要的方面有,配置,行为和依赖.如果你计划升级flink版本请仔细阅读和记录.已存在的问题Java版本11的Pulsar连接器有内存泄露Pulsar客户端低层是用Netty分配内存在Java11和8上是不同的.在Java11上分配内存是从Java直接内存池,并且有最大直接内存限制.当前的Pulsar客户端没有控制内存限制的配置项,这也就能导致内存溢出.建议用户使用Java8 的Pulsar connector 或者给Flink过翻译 2021-10-13 14:02:56 · 911 阅读 · 0 评论 -
flink启动(updating)
设置taskmanager并行度及slottask_manager数量 = 并行度数量(parallelism.default) slot数量(slots) + 11 为jobmanagerbin/yarn-session.sh -d -Dparallelism.default=48 --name app_wsw --slots 6 --taskManagerMemory 6114 --jobmanager yarn-cluster --jobManagerMemory 4096flink &l原创 2021-09-24 17:29:07 · 198 阅读 · 0 评论