
大数据
深度Java
这个作者很懒,什么都没留下…
展开
-
Apache Hudi的写时复制和读时合并
Apache Hudihttp://hudi.apache.org/http://hudi.apache.org/docs/quick-start-guide.htmlHudi将流处理带到大数据,提供新数据,同时比传统批处理效率高一个数量级。存储类型和视图Hudi存储类型定义了如何在DFS上对数据进行索引和布局以及如何在这种组织之上实现上述原语和时间轴活动(即如何写入数据)...原创 2020-04-22 18:23:41 · 4977 阅读 · 0 评论 -
度量,跟踪和日志记录
今天,我有幸参加了2017年的分布式追踪峰会,其中有很多来自AWS / X-Ray,OpenZipkin,OpenTracing,Instana,Datadog,Librato等公司的人员,我很遗憾我忘记了这一点。有一次讨论转向了项目范围和定义。跟踪系统是否也应该管理日志记录?什么确实的记录,通过在室内所代表的不同的镜头看?所有各种混凝土系统在哪里适合图片?简而言之,我觉得我们在共享词汇中磕磕...原创 2019-08-20 19:14:38 · 3248 阅读 · 0 评论 -
为什么选择RocketMQ以及Confluent公司对Kafka的分区设计的说明
《为什么选择RocketMQ》根据我们的研究,随着使用的队列和虚拟主题的增加,ActiveMQ IO模块遇到了瓶颈。我们尽力通过节流,断路器或降级解决这个问题,但效果不佳。因此,我们开始关注当时流行的消息传递解决方案Kafka。不幸的是,Kafka无法满足我们的要求,特别是在低延迟和高可靠性方面,详见此处。《如何在RocketMQ中支持更多队列?》Kafka是一个分布式流媒体平台,它源...原创 2019-03-19 01:27:33 · 2831 阅读 · 1 评论 -
Flink 基本原理与生产实践分享【入门必读,概念清晰】
Flink 基本原理与生产实践分享【入门必读,概念清晰】https://zh.wikipedia.org/zh-hans/Apache_FlinkApache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Fl...原创 2019-04-26 10:34:39 · 4111 阅读 · 2 评论 -
Flink在美团的应用与实践听课笔记
本文系《Flink在美团的应用与实践》的听课笔记原始视频视频资源已经在优酷公开:2018.8.11 Flink China Meetup·北京站-Flink在美团的应用与实践作者:刘迪珊@美团1.现状和背景实时平台架构最底层是数据缓存层,可以看到美团测的所有日志类的数据,都是通过统一的日志收集系统收集到Kafka。Kafka作为最大的数据中转层,支撑了美团...原创 2019-04-29 19:42:31 · 1889 阅读 · 1 评论