
Flink
文章平均质量分 86
开心自由天使
这个作者很懒,什么都没留下…
展开
-
Flink基础知识 ---事件时间与处理时间
事件时间与处理时间要谈论无限数据处理,需要清楚地了解所涉及的时间域。在任何数据处理系统中,通常有两个我们关心的时间域:事件时间这是事件实际发生的时间。处理时间这是在系统中观察事件的时间。并非所有的用例都关心事件时间(如果你的事情没有,那么万岁!你的生活会更容易),但很多人都这么做。示例包括表征用户随时间的行为,大多数计费应用程序以及许多类型的异常检测,仅举几例。在理想的世界中,事件时间和处理...翻译 2018-11-11 20:30:11 · 2922 阅读 · 0 评论 -
Flink基础知识--有界数据处理
有界数据处理有界数据在概念上非常简单,并且可能对每个人都很熟悉。在图1-2中,我们从左侧开始,其中包含一个充满熵的数据集。我们通过一些数据处理引擎(通常是批处理,虽然设计良好的流引擎也能正常工作)运行它,例如MapReduce,并且在右侧最终得到一个具有更大内在价值的新结构化数据集。图1-2。在这里插入图片描述在这里插入图片描述使用经典批处理引擎进行有界数据处理。左侧的有限非结构化数据池通...翻译 2018-11-11 20:33:02 · 1828 阅读 · 0 评论 -
Flink基础知识--无界数据处理
无界数据:流式传输与大多数基于批处理的无界数据处理方法的临时性质相反,流式系统是针对无界数据构建的。正如我们之前所讨论的,对于许多真实的分布式输入源,您不仅会发现自己处理无界数据,还会处理以下数据:事件时间高度无序,这意味着您需要某种时间 如果要在发生它们的上下文中分析数据,则在管道中进行基于shuffle。在不同的事件时间偏差中,意味着你不能只假设你总是会在某个恒定的时间ε中看到给定事件时间X...翻译 2018-11-11 20:36:44 · 2518 阅读 · 2 评论 -
Flink基础知识--何时以及如何使用流处理模式
Going Streaming:何时以及如何我们只是观察批量引擎上窗口管道的执行情况。但是,理想情况下,我们希望我们的结果具有较低的延迟,并且我们还希望本地处理无界数据源。切换到流媒体引擎是朝着正确方向迈出的一步,但是我们之前等待我们的输入被全部消耗以生成输出的策略已不再可行。输入触发器和水印。什么时候:关于触发器的精彩事情是触发器是很棒的事情!触发器提供了问题的答案:“在处理时间内是否实...翻译 2018-11-12 10:59:11 · 1208 阅读 · 0 评论 -
flink基础知识----水印处理
水印到目前为止,我们一直在从管道作者或数据科学家的角度来看待流处理。第2章介绍了水印作为回答事件时间处理发生位置以及处理时间结果何时实现的基本问题的答案的一部分。在本章中,我们处理相同的问题,而不是从流处理系统的底层机制的角度来看。查看这些机制将有助于我们激发,理解和应用水印的概念。我们将讨论如何在数据入口处创建水印,它们如何在数据处理管道中传播,以及它们如何影响输出时间戳。我们还演示了水印如何...翻译 2018-11-12 15:56:22 · 4650 阅读 · 0 评论 -
把docker状态变成kafka实时数据流---一行代码写了2天的shell代码
shell 命令行实时打印docker 状态,并添加当前的时间戳,变成json字符串,每行一个,持续不停的输出。结果将给filebeat 采集并实时送到kafka 集群做实时数据流分析的源头,发给Flink 做各种实时数据流分析.这个看起来很简单,其实要实现起来难度不小,尝试了多次都失败了,只是目标不断的趋近,到此刻终于彻底解决了这个问题。禁止stdio缓存实时输出docker st...原创 2019-07-13 00:38:47 · 248 阅读 · 0 评论 -
play json Flink 上应用遇到的坑
····最近开发flink 项目使用json, 遇到一个play json 很大的坑,错误提示1:play.api.libs.json.JsResultException: JsResultException(errors:List((/cpu,List(JsonValidationError(List(error.expected.jsnumber),WrappedArray()))), ...原创 2019-07-16 16:34:41 · 2008 阅读 · 1 评论