
流数据处理#大数据
从事大数据流数据开发,项目实战经验丰富,本专栏包括实时处理大屏过程中遇到各种真实问题总结,是相关从业人员从事相关工作的重要参考和工作面试必备神器
BigDataMLApplication
spark hadoop flink kafka 海量流批数据处理 、 机器学习、 运筹开发、运维等十年大数据和人工智能搬砖经验,欢迎关注
展开
-
kafka streaming流数据处理遇到的问题实战总结系列【持续更新】
方案设计mq流数据引擎存储linux运维监控原创 2019-02-20 07:08:37 · 970 阅读 · 0 评论 -
【spark床头书系列】Spark Streaming 编程权威使用指南
本文档为Spark的旧版本Streaming引擎。Spark Streaming 不再更新,是一个遗留项目。在Spark中有一种新的、更易用的流处理引擎,称为结构化流式处理。您应该使用Spark结构化流处理来开发流式应用和流水线。请参阅结构化流式处理编程指南。*原创 2023-11-30 09:55:27 · 1145 阅读 · 0 评论 -
iceberg snapshots快照删除接口源码分析
iceberg快照删除接口提供了一系列方法来控制过期快照的删除行为。通过调用不同的方法,可以设置要过期的快照ID、过期时间戳以及保留最近祖先快照的数量等。此外,还可以传递替代的删除实现和执行删除的ExecutorService。方法设置是否清理底层清单文件和数据文件原创 2023-08-21 23:22:18 · 308 阅读 · 1 评论 -
flink 中计算列和元数据列的使用说明
计算列是指在数据集中定义的计算列,它可以是简单的常量值,也可以是复杂的表达式,用于从表中提取特定的值。元数据列是指存储在数据集中的基础列,它们不包含任何计算。Flink 中的元数据列使用 SQL 语句定义,可以在结果集中返回结果。计算列通常用于执行各种计算操作、转换数据或生成新的衍生指标,而元数据列主要用于向结果集中添加静态值或标记。计算列是通过对现有列进行计算或表达式求值得到的新列,而元数据列是作为固定值或常量添加到结果集中的列。计算列根据数据集中的实际值进行计算,而元数据列是预定义的固定值。原创 2023-02-13 23:24:25 · 604 阅读 · 0 评论 -
flink kafka metadata timestamp-type 中NoTimestampType应用场景和代码实例说明
NoTimestampType允许禁用Kafka记录的自动时间戳提取。当用户希望依赖于记录值中嵌入字段的时间戳时,这通常很有用。原创 2023-02-13 22:48:27 · 396 阅读 · 0 评论 -
flink 主键约束使用例子说明
Flink 主键约束是在 Table API 中使用的约束,它可以用于确保表中数据的唯一性和完整性。例如,假设有一个表名为UserInfo,它有两个字段id(主键)和name,可以在定义该表时使用主键约束原创 2023-02-13 22:42:53 · 450 阅读 · 0 评论 -
为何选择Scala
为何选择ScalaScala是适合你的语言吗?Scala是一门混合了函数式和面向对象的语言。用Scala创建多线程应用时,你会倾向于函数式编程风格,用不变状态(immutable state)①编写无锁(lock-free)代码。Scala提供一个基于actor的消息传递(message-passing)模型,消除了涉及并发的痛苦问题。运用这个模型,你可以写出简洁的多线程代码,而无需顾虑线程间的数据竞争,以及处理加锁和释放带来的梦魇。把synchronized这个关键字从你的字典中清除,享受Scala带原创 2020-12-03 21:58:43 · 210 阅读 · 0 评论 -
kafka auto.offset.reset值含义解释以及代码测试
kafka订阅消费数据过程需要配置的常见参数有bootstrap.servers,group.id,auto.commit.enable,auto.offset.reset等参数(kafka 0.9+使用Java Consumer替代了老版本的scala Consumer)。参数含义(1)bootstrap.servers在启动consumer时配置的broker地址的。 它配置的格式是:...原创 2019-02-24 14:35:47 · 1530 阅读 · 0 评论