小王同学mf-优快云博客

原创聚类分析算法

聚类分析（Cluster Analysis）是一种无监督学习方法，用于将相似的数据点分组成簇(cluster)，使得同一簇内的数据点具有较高的相似性，而不同簇之间的数据点具有较大的差异性。聚类分析的目标是在不依赖预定义标签的情况下，发现数据中的内在结构和模式。

2024-12-05 09:48:49 1172 1

Dependency failed for Reload configuration from the Real Root.（从实际根目录重新加载配置的依赖性失败。Dependency failed for Initrd root File System.（Initrd根文件系统的依赖关系失败。输入命令：xfs_repair -v -L /dev/dm-0强制xfs_repair将日志归零，就可以成功解决问题了。failed to mount /sysroot.（无法挂载/ sysroot。

2024-12-05 09:46:08 917

原创 Flink面试题推荐

测到输出可以将一个流事先定义好标签，根据标签处理分成多个流。测到输出还有一个非常重要的作用就是可以将窗口关闭后迟到的数据侧道放在一个流中以供后续处理。flink有计数窗口countwindow、时间窗口timewindow、以及会话窗口，滚动窗口是指每过多长时间就统计多长时间的数据，滑动窗口是指，每过多长时间处理和此时间不同时间，一般处理的时间大于间隔的时间。

2024-12-02 08:06:49 828

原创 hashmap的底层设计原理以及扩容规则，是否线程安全，如何线程安全。

举个例子，当一个线程使用put方法时，另一个线程不但不可以使用put方法，连get方法都不可以。注意：链表的长度大于8 且数组长度大于64转换为红黑树（如果数组长度小于64，即使链表长度超过 8，也不会进行树华，而是会进行扩容操作）：HashMap 的初始容量是 0，这是一种懒加载机制，直到第一次 put 操作才会初始化数组大小，默认大小是 16。，但是不扩容的话会造成拉链的长度越来越长，导致散列表的时间复杂度会倾向于 O(n) 而不是 O(1)。JDK1.8 中，在多线程环境下，会发生数据覆盖的情况。

2024-11-21 21:52:24 1158

原创多线程的概述以及创建线程池的四种方式

多线程（multithreading），是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同执行多于一个线程，进而提升整体处理性能。具有这种能力的系统包括处理器以及或处理器。在一个程序中，这些独立运行的程序片段叫作“”（Thread），利用它编程的概念就叫作“多线程处理”

2024-11-18 23:05:24 997

原创 Join between two streaming DataFrames/Datasets is not supported in Complete output mode, only in App

以下方案不可取，报错 Join between two streaming DataFrames/Datasets is not supported in Complete output mode, only in Append output mode;目标三：实时统计每个科目的热点题（Top10）。# 编写第一个指标统计top10热点题。目标四：实时统计每位学生得分最低的题目。目标一：实时统计热点题（Top10）。# 统计top10热点题并带上所属科目。目标二：实时统计答题最活跃的年级。

2024-11-18 20:49:25 1226

原创 kafka面试题part-3

首先groupId对50取模，看最后的结果是哪个分区节点，假如是1分区，那么1分区的协调器就是本次消费者组的老大，消费者纷纷向该协调器进行注册，协调器从中随机选择一个消费者作为本次消费的Leader，然后把本次消费的具体情况发送给Leader，让其制定一个消费计划（就是哪个消费者消费哪个分区），然后Leader发送给协调器，协调器再进行群发，将计划公布，各个消费者按照这个计划进行消费。Range、RoundRobin（轮询）、Sticky（粘性）、CooperativeSticky（配合的粘性）。

2024-11-11 19:26:10 434

原创 kafaka面试题part-2

Kafka在将分区分配给消费者实例时，会遵循一定的分区分配策略。当消费者组内的消费者实例数量与分区数量相匹配时，每个消费者实例都可以处理一个或多个分区的数据，从而大大提高数据的处理效率。当多个消费者实例存在于同一个消费者组中时，Kafka会将主题的不同分区分配给这些消费者实例，以确保每个消费者实例都能处理到一部分数据，从而实现负载均衡。Topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是Producer生产的数据。

2024-11-11 19:17:02 553

原创 kafka面试题

假如broker0中的controller中抢到了，那它就是说了算的人。假如Follower挂掉了，Leader和其他的Follower 继续往前存储数据，挂掉的节点从ISR集合中剔除，此时挂掉的Follower又重启了，它会先从上一次挂掉的节点的HW（最高水位线）开始同步数据，直到追上最后一个Follower为止,此时会重新回归ISR。3）选举规则是：在ISR中存活为前提，按照AR中排在前面的优先，比如：ar[1,0,2] ,isr[1,0,2],那么Leader会按照1，0，2 进行顺序的轮询。

2024-11-09 16:15:56 858

原创 Kafka中Leader挂了，Follower挂了，然后再启动，数据如何同步？

由于数据同步的时候先进入Leader,随后同步给Follower，假如Follower挂掉了，Leader和其他的Follower 继续往前存储数据，挂掉的节点从ISR集合中剔除，此时挂掉的Follower又重启了，它会先从上一次挂掉的节点的HW开始同步数据，直到追上最后一个Follower为止,此时会重新回归ISR。HW(高水位线 High Water) 演示：所有副本中，最小的LEO。LEO演示-- 每一个副本最后的偏移量offset + 1。

2024-11-09 15:49:01 291

原创 kafka中节点如何服役和退役

（3）创建副本存储计划（所有副本存储在 broker0、broker1、broker2、broker3 中）。（7）启动 bigdata01、bigdata02、bigdata03 上的 kafka 集群。（3）创建副本存储计划（所有副本存储在 broker0、broker1、broker2 中）。由于我之前创建first这个主题的时候只有一个副本，不是三个副本，所以呢，演示效果不佳。（3）在 bigdata04 上，修改主机名称为 bigdata04。（2）开启 bigdata04，并修改 IP 地址。

2024-11-09 15:17:45 1451

原创 kafka是如何处理数据乱序问题的。

1）生产者在发送3请求的时候，发生异常，发生异常需要重新发送，所以排在了后面，在进行落盘的时候，先落盘1，2 ，落盘3的时候发现是4，需要等，等到3出现为止，然后将 3，4 ，5排序，排序后再进行落盘。原因说明：因为在kafka1.x以后，启用幂等后，kafka服务端会缓存producer发来的最近5个request的元数据，故无论如何，都可以保证最近5个request的数据都是有序的。顺序错乱了，会自动排序（开启幂等性）。=1（不需要考虑是否开启幂等性）。

2024-11-09 14:58:26 314

原创简述kafka集群中的Leader选举机制

Kafka 集群中有一个 broker 的 Controller 会被选举为 Controller Leader，负责管理集群broker 的上下线，所有 topic 的分区副本分配和 Leader 选举等工作。（4）停止掉 hadoop14 的 kafka 进程，并查看 Leader 分区情况。（3）停止掉 hadoop13 的 kafka 进程，并查看 Leader 分区情况。Controller 的信息同步工作是依赖于 Zookeeper 的。（1）创建一个新的 topic，4 个分区，4 个副本。

2024-11-09 14:49:43 986

原创 ZooKeeper在kafka集群中有何作用

Zookeeper 存储的 Kafka 信息（1）启动 Zookeeper 客户端。（2）通过 ls 命令可以查看 kafka 相关信息。zk中有一个节点 consumers 这个里面，老版本0.9版本之前，存放的是消费者的偏移量（offset，这次消费者消费到哪个地方了，下次从这个地方继续消费），新版本的根本没放在zk中，直接放在集群中了。可以借助一个工具：漂亮的zoo，通过图形化界面查看zk中的消息。

2024-11-09 14:33:12 865 1

原创 Kafka生产者如何提高吞吐量？

②在 IDEA 中执行代码，观察 hadoop102 控制台中是否接收到消息。4、 RecordAccumulator：缓冲区大小，修改为64m。2、linger.ms：等待时间，修改为5-100ms。3、compression.type：压缩snappy。①在 bigdata01 上开启 Kafka 消费者。1、batch.size：批次大小，默认16k。

2024-11-09 14:07:11 653

原创 Kafka中如何做到数据唯一，即数据去重？

At Least Once可以保证数据不丢失，但是不能保证数据不重复；At Most Once可以保证数据不重复，但是不能保证数据不丢失。•。

2024-11-09 11:12:58 1182

原创 Kafka 在什么情况下会出现消息丢失

2、Kafka Broker 服务端丢失消息。1 、生产者丢失消息。

2024-11-09 09:52:30 596

原创怎么尽可能保证 Kafka 的可靠性

如果我们要往 Kafka 对应的主题发送消息，我们需要通过 Producer 完成。把选项提供给用户自己去选择，我们可以通过配置来决定消息发送到对应分区的几个副本才算消息发送成功。另外，Producer 发送消息还可以选择同步（默认，通过 producer.type=sync 配置）或者异步（producer.type=async）模式。如果设置成异步，虽然会极大的提高消息发送的性能，但是这样会增加丢失数据的风险。根据实际的应用场景，我们设置不同的 acks，以此保证数据的可靠性。

2024-11-09 09:51:46 881

原创 Kafka面试题 part-1

ISR 是动态调整的，根据副本的同步状态和延迟情况而变化。1）生产者在发送3请求的时候，发生异常，发生异常需要重新发送，所以排在了后面，在进行落盘的时候，先落盘1，2 ，落盘3的时候发现是4，需要等，等到3出现为止，然后将 3，4 ，5排序，排序后再进行落盘。生产者发送的数据，单分区内可以做到有序，多分区，无法保证，除非把多个分区的数据拉到消费者端，进行排序，但这样做需要等，效率很低，还不如直接设置一个分区。每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是 Leader。

2024-11-08 16:06:04 996

原创 redis的哨兵模式（Sentinel）

解决的问题是，主从模式下，master节点挂掉以后，从节点无法自动升级为主节点的问题。

2024-11-07 21:40:47 924

原创现有用户登录记录表，请查询出用户连续三天登录的所有数据记录

期望结果：查询表内容。

2024-11-07 21:33:14 555

原创如何避免数据倾斜

第一个MRJob中，Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；虽然某个 key 为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join 的结果中，此时我们可以表 a 中 key 为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的 reducer 上。数据倾斜是由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点的现象。

2024-11-06 19:53:23 991

原创 redis主从复制

redis的主从复制

2024-11-06 19:30:50 458

原创 order by 、sort by、distribute by、group by、cluster by的区别

ORDER BY：全局排序，结果集有序。SORT BY：分布式排序，每个节点排序，但结果集不一定全局有序。：用于数据分布，通常与SORT BY结合使用。GROUP BY：用于分组和聚合操作。CLUSTER BY：结合了DISTRIBUTE BY和SORT BY的功能，适用于分布式环境下的数据排序和分布。

2024-10-31 18:51:29 706