
读书
文章平均质量分 92
装B五分钟,挨打两小时
御剑乘风来,debug 代码间。
有酒乐逍遥,无酒我亦颠,
一饮尽江河,再饮吞日月,
千杯醉不倒,唯我酒剑仙。
愉快的编程,浪浪的写代码
展开
-
Kafka 源码学习
文章目录 Kafka 源码剖析一 Kafka客户端发送消息的核心流程sender 流程遍历所有分区,得到所有批次,判断批次是否需要发送二 Kafka 内存池个性化内存池三 Kafka 拉取元数据流程四 Kafka 核心五 Kafka 一些调优参数1. kafka 消息缓存大于 1M 会报错 超 32M 报错2. kafka 回收空闲链接3. producer 发送给 reduce 多少个无响应情况kafka 不是完全同步,也不是完全异步,是一种ISR机制:写消息流程% Kafka 为避免 full GC原创 2021-05-25 17:53:55 · 456 阅读 · 1 评论 -
三 概要模式 1)数值概要 (单词计数\记录计数\最大值/最小值/计数\平均值、中位数、标准差)...
一 数值概要 模式描述: 数值概要模式是计算机数据聚合统计值的一般性模式。 对于合理使用 combiner 以及理解正在做的计算来讲,数值概要模式是极为重要的。 目的 基于某个键将记录分组,并对每个分组计算一系列的聚合值,从而得到较大数据集的高层次视图。 适用场景 要处理的数据是数值数据或者计数 数据可以按照...原创 2016-04-05 09:21:00 · 417 阅读 · 0 评论 -
Flink 学习(一)架构、执行图、Flink State
一 Flink StateFlink 1.10FlinkML 机器学习Gelly 图计算Flink 架构主节点 JobManager从节点 TaskManagerSpark 使用 netty 通讯Hadoop 使用 RPC 通讯Flink 使用 Akka 通讯 Actor System四种传输策略1 forward strategy一个 task 的输出值发送给一个 task 作为输入如果两个 task 都在一个 JVM 的话就会米面网络开销2 key based原创 2020-12-10 17:41:10 · 350 阅读 · 0 评论 -
Flink 学习(二) State Backend Flink 与 Spark 对比面试题答案。 keyBy
文章目录1 实时热门页面统计:top N2 实时统计黑名单3 State BackendMemoryStateBackendFSStateBackend 可以用于生产RocksDBStateBackend 可用于生产 存储量超大StateBackend 配置方式CheckPoint 原理Flink 使用 chandy-lamport 算法做 statecheckpoint配置Flink 重启策略超牛逼的 SavePoint4 Flink 与 Spark 对比面试题答案SQL on Stream5原创 2020-12-10 21:02:37 · 246 阅读 · 1 评论 -
Flink 学习 (三)
文章目录1 两阶段提交核心设计2 大数据去重普适架构3 Flink 整合 Redis HBase exactly once4 Kafka exactly once5 SQL on Stream 平台架构精选面试题Flink 相比 SparkStreaming 有什么区别? 多角度问答架构模型Spark Streaming 在运行时的主要角色包括:Master、Worker、Driver、ExecutorFlink 在运行时主要包含:Jobmanager、Taskmanager、 Clien原创 2020-12-31 14:44:05 · 243 阅读 · 3 评论 -
读书 数据密集型应用 一
数据系统的思考1 记住开销昂贵操作的结果,加快读取速度(缓存 cache),允许用户按关键字搜索数据,或以各种方式对数据进行过滤(搜索索引(search indexes)) 向其他进程发送消息,进行异步处理(流处理)定期处理累计的大批量数据(批处理 batch processing)过早优化:为了不必要的扩展性而设计程序,不仅会浪费不必要的精力,并且会可能吧你锁死在一个不灵活的设计中。可靠性 系统存在困境(硬件故障、软件故障、人为错误) 中仍可以正常工作 正确完成功能,并能达到期望水原创 2020-12-04 18:17:05 · 345 阅读 · 0 评论 -
读书 数据密集型应用 二
数据密集型应用 第二部分 分布式数据复制1 同步复制优点: 从库与主库保持高度一致。 主库失效可以立即切换从库缺点: 从库出现异常时 主库跟着嗝屁2 异步复制优点:不影响主库写入,缺点:有时可能落后主库几分钟之久。例如:从库正在从故障中恢复、系统在性能瓶颈运行,或者节点间网络问题。半同步将所有从库都设置为同步的事不切实际的,任何一个节点的中断都会导致整个系统停止服务。如果启用同步复制,通常一个slave 是同步,其余异步方式。如果同步从库变得不可用或缓慢,则使一个异步从库同步。保证至少原创 2020-12-10 09:54:31 · 137 阅读 · 0 评论