且听_风吟-优快云博客

原创最清晰易懂的Elasticsearch操作手册｜收藏夹必备

本文围绕ES最新版本，从常用基础操作、DSL查询、聚合查询、批量操作，实用技巧等方面进行了详细的举例解析，并对读者可能出现的疑惑进行了标红总结，并对需要注意的地方也进行了单独的声明。

2020-06-18 16:16:00 13417 119

原创 0、展望---Flink 1.9版本变化及新特性

一、背景及概览阿里内部版本Blink首次合并入Flink，并于2019年8月22日，正式发布Apache Flink 1.9.0 版本。更新概述：架构升级新功能和改进细粒度批作业恢复 (FLIP-1)State Processor API (FLIP-43)Stop-with-Savepoint (FLIP-34)新 Blink SQL 查询处理器预览Table API /...

2019-12-31 19:57:33 2283 3

原创 Flink SQL中使用异步io关联维表

当前社区对Flink SQL中使用异步io关联维表的进展。

2021-12-01 15:13:57 2227

原创零拷贝技术原理分析

轻松掌握Netty、Kafka、RocketMQ高效率读写的核心秘诀--零拷贝技术

2021-04-25 11:53:50 1461 1

原创 Flink限流数据、内存预测、slot资源隔离解决方案

本文围绕Flink端应该怎样进行数据限流，以及Flink任务的内存预测和slot资源隔离是否真的隔离了内存进行了深入的探讨。

2020-10-24 20:18:27 4247 4

原创深入分析Kafka工作流程、存储机制、分区策略

kafka主要应用在大数据的实时处理领域，使用起来比较简单，本文主要分析kafka的工作流程、存储机制，分区策略，并围绕多个角度展开总结。

2020-10-24 20:13:13 4334 7

原创 FlinkSQL怎么查找到要执行的代码

在写flink sql的时候不知道大家是否会有一个疑问：咱们创建的flink sql是怎么找到它要执行的java代码在哪的呢？flink sql里也没有声明位置呀。

2020-07-17 11:30:29 1889 1

原创 Flink SQL如何保证分topic有序

在做实时数仓的时候，我们需要保证提高消费能力和数据有序，那如果要用Flink sql 和 Kafka交互时，我们该怎么设置并行度和自定义分区呢？

2020-07-17 10:38:17 2831 37

原创 ElasticSearch中文分词，看这一篇就够了

本文我们围绕Elasticsearch的分词器，从内置分词器的局限性出发，引出了中文分词器，然后详细介绍了ik分词器的编译，安装配置和使用。

2020-06-03 16:09:11 38737 99

原创 ElasticSearch最新版快速入门详解

本文把最新版的ElasticSearch和kibana的知识点用通俗易懂的语言来展现，并会在核心概念上和MySql对比，结合示例进行图文并茂的详解，同时还给大家提供百分百成功的极速安装配置方法哦！

2020-05-29 14:43:12 53131 129

红黑树动图解析一、啥是红黑树？红黑树（Red Black Tree）是一种自平衡二叉查找树，是在计算机科学中用到的一种数据结构，典型的用途是实现关联数组。因此想要弄清楚红黑树，我们需要先解决几个问题：二叉查找树是什么？为什么会出现红黑树？二、剖析二叉查找树二叉查找树特性二叉查找树（Binary Search Tree）是一颗二叉树，简称BST。就像我们说int都是整数一样，BST这一种二叉树需要满足如下三个特性：某节点的左子树节点值仅包含小于该节点值某节点的右子树节点值仅包含大于该

2020-05-21 15:05:01 3745 25

原创不可不知的红黑树解析

2020-05-21 15:04:12 1933 1

原创红黑树解析

写在前面：我是「且听风吟」，目前是某上市游戏公司的大数据开发工程师，热爱大数据开源技术，喜欢分享自己的所学所悟，现阶段正在从头梳理大数据体系的知识，以后将会把时间重点放在Spark和Flink上面。如果你也对大数据感兴趣，希望在这个行业一展拳脚。欢迎关注我，我们一起努力，一起学习。博客地址：https://ropledata.blog.youkuaiyun.com博客的名字来源于：且听风吟，静待花开。也符合我对技术的看法，想要真正掌握一门技术就需要厚积薄发的毅力，同时保持乐观的心态。你只管努力，剩下的交给.

2020-05-21 15:03:11 1917

原创 ArrayList源码万字解析！透彻易懂！

本文我们结合源码用通俗易懂的语言来解析ArrayList，尽量给每一行源码都写上注释，给每一个功能加上总结，助你进大厂一臂之力

2020-05-20 20:22:05 8514 47

原创 hive关系运算实例详解

非常详细的hive关系运算解析，并且每个运算都结合实例进行解释。

2020-05-20 19:28:20 1246

原创万字HBase详解带你畅游大数据的海豚湾

本文深入到HBase的起源开始分析，从0开始带你畅游大数据的海豚湾！让你轻松掌握HBase的原理，架构设计，存储设计，优点及适用场景。

2020-05-20 17:18:25 11728 123

原创你说你会Spring和分布式，那你知道它们怎么演化来的吗？

知其然更要知其所以然！现在我们所熟知的微服务，spring，负载均衡，分布式等等技术框架和技术架构，它们的发展都是有着必然联系的。让我们追本溯源，纵览分布式的近20年发展历程。

2020-05-14 09:21:11 6229 113

原创你一定要知道的分布式架构演化史｜干货满满

分布式架构的发展壮大正是一批批程序员前赴后继，遇到问题并解决问题，不断迭代得到的技术成果，为所有程序员点赞！

2020-05-12 15:40:52 3968 37

原创大白话彻底搞懂HBase RowKey详细设计

本文从RowKey的原理，可能出现的问题，如何优化及各个优化措施对应的缺点和适用的场景，设计原则等角度对RowKey进行了详细全面的解析，相信一定能对你有所帮助。

2020-05-08 14:18:42 21114 178

原创 kafka自定义拦截器｜案例实战

本文详细解释kafka的拦截器及拦截器链，并根据案例实现两个常见的自定义拦截器并组成拦截链，Talk is cheap，Show me the code

2020-04-29 14:33:01 3612 65

原创如何像海豚一样在数据海洋里遨游？｜Hbase数据处理流程详解

Hbase的logo是海豚的形象，寓意在大数据的海洋里穿梭遨游。事实上数据的处理流程一直都是Hbase的核心知识点，让我们一起乘风破浪，解决Hbase的数据读写流程、数据flush流程和数据合并流程。

2020-04-27 18:55:00 4816 60

原创 kafka实战篇（二）：消息消费实战

本文主要使用java来实战kafka消费数据的过程，解析并实现kafka手动提交offset和自动提交offset的demo，并进行详细的总结和对比。

2020-04-24 16:00:44 9057 87

原创 kafka实战篇（一）：Producer消息发送实战

本文对kafka生产者发送消息的流程进行了详细的解释和实战，其中包含了新版本的kafka对于同步发送消息和异步发送消息的api实现，以及kafka源码里的回调函数和架构内部的失败重试机制等都给出了底层的详细解释及实战demo。

2020-04-22 16:42:49 13830 71

原创深入分析Kafka架构（三）：消费者消费方式、三种分区分配策略、offset维护

本文作为深入分析kafka架构系列的终章，分析了kafka消费者的消费方式，分区分配策略，offset维护，其中重点详细的分析了三种分区分配策略，并举例对比，使对kafka感兴趣的读者能有所收获。

2020-04-16 17:29:28 8746 53

原创深入分析Kafka架构（二）：数据可靠性、故障处理

本文探讨了kafka是怎么保证数据可靠性的，以及如何实现的exactly once，并分析了kafka的故障处理策略。

2020-04-14 16:41:39 3172 24

原创深入分析Kafka架构（一）：工作流程、存储机制、分区策略

kafka主要应用在大数据的实时处理领域，使用起来比较简单，本文主要分析kafka的工作流程、存储机制，分区策略，并围绕多个角度展开总结。

2020-04-13 15:04:42 3420 27

原创深入分析零拷贝的原理，彻底掌握Netty、Kafka、RocketMQ高效率读写的秘诀

本文深入探究零拷贝的原理，从操作系统开始层层递进的分析了数据传输的各个相关组件及流程，直观透彻的呈现了零拷贝的原理和优点。

2020-04-09 13:12:53 3496 26

原创大数据面试题知识点分析（十二）之Kafka面试真题及答案

本文涵盖2020年kafka最新的面试点，由易及难。不管是应对实际生产里的集群规模、分区数等基础类的摸底面试点；还是kafka底层、事务、分区分配策略、ISR、选举、幂等性等深入的面试考察点，都可以在这里找到答案，让你与面试官顺利侃侃而谈。

2020-04-08 12:46:27 6131 93

原创别怕，遇到Map源码面试题这样答就对了

众所周知，在面试大厂的过程中，HashMap源码是必问的，当然有些还会问TreeMap 和 LinkedHashMap。如果事先没有准备，当然会瞬间懵逼，因此在面试前建议大家抽出时间准备准备，很容易就能续写自己的高光时刻。在开始之前，强烈推荐阅读这个多达两万字的HashMap源码分析文章，是的，你想要的，它都有！强化基础，HashMap源码全角度详细解析别的废话就不多说了，下面开始见招拆招。...

2020-04-03 16:39:58 1619 22

原创大数据面试题知识点分析（十一）之Flume面试真题及答案

一般情况下面试大数据岗位的时候都会问到flume，我们之前也对flume进行过总结，不过时间太快了，转眼到了2020年。下面根据本人最新的flume相关面试并总结最准确的答案如下：本文目录一、Flume的Source，Sink，Channel的作用？你们Source是什么类型？1.1、首先各组件的作用1.2、实际生产常用的Source类型为：二、你对Flume的Channel Selectors...

2020-04-03 11:23:04 4316 44

原创 hive行转列、列转行真题解析

本文目录一、行转列1.1、行转列需要用到的函数1.2、真题实战1.2.1、需求1.2.2、创建hive表并导入数据1.2.3、按需求解题二、列转行2.1、列转行需要用到的函数2.2、真题实战2.2.1 、需求2.2.2、创建hive表并导入数据2.2.3、按需求解题2.2.4、详细解析上述sql三、总结一、行转列1.1、行转列需要用到的函数CONCAT(string A/col, str...

2020-03-31 16:31:06 2302 22

原创 hive乱码彻底解决方案全记录

hive乱码主要分为三种：一种是hive cli查询乱码，但是在ambari端查看正常；一种是导入汉字数据后，所有客户端方式查询都乱码；一种是hive cli查询没有乱码，但是通过jdbc或者hiveserver2查询出现了乱码。下面分别列出亲测可行的解决方案：第一种：hive cli查询乱码，但是在ambari端查看正常表现：在hive基础命令行下后查询时，中文出现乱码，但是am...

2020-03-31 15:03:09 8513 3

原创一文彻底学会hive分桶表（实战详解）

本文目录一、分桶表概述1.1、什么是分桶表？1.2、分桶表和分区表有啥区别？二、分桶表实战2.1、创建一个分桶表2.2、准备数据2.3、向分桶表导入数据2.3.1、错误导入示范（引出分桶的本质）2.3.2、正确导入示范（引出分桶规则）2.4、分桶抽样三、总结3.1、分桶表的优点3.2、常用操作3.3、分桶表的实质及与分区表的区别一、分桶表概述1.1、什么是分桶表？分桶是将数据集分解成更容易管...

2020-03-30 19:05:58 14470 46

原创 hive面试题总结（2020最新版）

本文目录一、hive架构相关二、hive的特点三、内部表和外部表的区别？四、4个by的区别？五、介绍一下有哪些常用函数？5.1、行转列函数5.2、列转行函数5.3、Rank排名函数5.4、窗口函数（开窗函数）六、UDF、UDAF、UDTF相关面试题6.1、UDF、UDAF、UDTF的区别？6.2、怎么自定义UDF、UDAF、UDTF函数？七、hive怎么解决数据倾斜？八、hive优化相关面试题一...

2020-03-27 15:05:23 24009 33

原创深入分析zookeeper（理论加实战）

本文目录一、zookeeper基础1.1、什么是zookeeper？1.2、文件系统1.2、监听通知机制二、实际生产中的作用2.1、配置管理2.2、统一命名服务2.3、分布式锁2.4、集群管理等服务三、纸上得来总觉浅，zookeeper实战3.1、使用docker安装zookeeper最新版3.1.1、下载zookeeper镜像3.1.2、启动容器并暴露2181端口3.1.3、查看容器状态3.1....

2020-03-20 16:56:08 2310 32

原创深入分析hadoop之YARN原理、架构、作业流程及调度器

一、YARN的原理1.1、yarn是什么？首先看一下官方对于这个词汇的解释：Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，在Hadoop2引入，为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。划重点，这里...

2020-03-19 12:12:35 1616 20

原创深入分析MapReduce之Shuffle原理和数据处理流程

本文目录一、重新认识shuffle1.1、什么是shuffle？1.2、有什么作用？二、shuffle流程详解2.1、Map端shuffle流程2.1.1、整体概括（方便记忆）2.1.2、详细解析（方便理解）2.2、Reduce端shuffle流程2.2.1、整体概括（方便记忆）2.2.2、详细解析（方便理解）一、重新认识shuffle1.1、什么是shuffle？shuffle在词典里的翻...

2020-03-17 20:22:17 1695 4

原创深入分析HDFS原理及读写流程

本文目录一、架构体系1.1、什么是HDFS？1.2、组成HDFS的各模块作用1.2.1、Client1.2.2、NameNode1.2.3、DataNode1.2.4、SecondaryNameNode二、数据读写2.1、读数据2.2、写数据三、优缺点一、架构体系1.1、什么是HDFS？HDFS即Hadoop Distributed File System的简称，采用Master/Slave...

2020-03-12 17:29:46 8453 22