蓦然_-优快云博客

原创大数据面试题：Spark和Flink的区别

Flink 根据用户提交的代码生成 StreamGraph，经过优化生成 JobGraph，然后提交给JobManager 进行处理， JobManager 会根据 JobGraph 生成 ExecutionGraph，ExecutionGraph 是 Flink 调度最核心的数据结构，JobManager 根据 ExecutionGraph 对 Job 进行调度。在Flink的世界观中，一切都是由流组成的，离线数据是有界限的流，实时数据是一个没有界限的流，这就是所谓的有界流和无界流。

2023-10-10 21:40:57 1228

原创大数据面试题：Spark和MapReduce之间的区别？各自优缺点？

Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与其他节点进行数据交换，Spark可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘IO的操作。有一个误区，Spark是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop也是如此，只不过Spark支持将需要反复用到的数据Cache到内存中，减少数据加载耗时，所以Spark跑机器学习算法比较在行（需要对数据进行反复迭代）。

2023-10-07 22:10:23 3231

原创《阿里大数据之路》读书笔记：第三章数据同步

数据同步技术含义：不同系统间的数据流转，有多种不同的应用场景。应用场景：- 同类型不同集群数据库之间的数据同步- 主数据库与备份数据库之间的数据备份- 主系统与子系统之间的数据更新- 不同地域、不同数据库类型之间的数据传输交换大数据系统中的数据同步- 数据从业务系统同步进入数据仓库- 数据从数据仓库同步进入数据服务或数据应用

2023-09-10 11:12:16 480

原创大数据面试题：MapReduce压缩方式

对单个很大的文本文件想压缩减少存储空间，同时又需要支持split，而且兼容之前的应用程序（即应用程序不需要修改）的情况。当Mapreduce作业的Map输出的数据比较大的时候，作为Map到Reduce的中间数据的压缩格式。一个很大的文本文件，压缩之后还大于200M以上的可以考虑，而且单个文件越大，lzo优点越越明显。输出之后的数据比较大，处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况。适合对速度要求不高，但需要较高的压缩率的时候，可以作为mapreduce作业的输出格式。

2023-09-02 13:17:45 617

原创大数据面试题：Spark的任务执行流程

运行流程以SparkContext为程序运行的总入口，在SparkContext的初始化过程中，Spark会分别创建DAGScheduler作业调度和TaskScheduler任务调度两级调度模块。

2023-08-19 12:46:17 756

原创大数据面试题：说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action？

Transform和ActionTransformation是得到一个新的RDD，但并不立即执行计算，只是记录下这个操作。方式很多，比如从数据源生成一个新的RDD，从RDD生成一个新的RDD。Action是指触发对RDD进行计算的操作，得到一个值，或者一个结果（直接将RDD cache到内存中）。因为所有的Transformation都是采用的懒策略，就是如果只是将Transformation提交是不会执行计算的，计算只有在Action被提交的时候才被触发。这样有利于减少内存消耗，提高了执行效率。

2023-08-12 11:19:29 470

原创大数据面试题：Kafka的ISR机制

如果Partition Follower长时间（replica.lag.time.max.ms，默认10s）未向Leader同步数据，则该Partition Follower将被踢出ISR，存入OSR（Outof-Sync Replicas）列表（AR = ISR + OSR，AR（Assigned Repllicas）：一个partition的所有副本（就是replica，不区分Leader或Follower）），新加入的Follower也会先存放在OSR中。可回答：1）从ISR踢出去之后呢；

2023-08-09 22:49:54 1469

原创大数据面试题：Hadoop中的几个进程和作用

Hadoop中的几个进程和作用

2023-08-07 23:22:34 872

原创大数据面试题：HBase的读写缓存

HBase上RegionServer的cache主要分为两个部分：MemStore & BlockCache。

2023-08-05 11:39:09 914

原创大数据面试题：HBase的RegionServer宕机以后怎么恢复的？

通常情况下要求集群中至少启动两个Master进程，进程启动之后会到ZooKeeper上的Master节点进行注册，注册成功后会成为ActiveMaster，其他在Master节点未注册成功的进程会到另一个节点Backup-Masters节点进行注册，并持续关注Active Master的情况，一旦Active Master发生宕机，这些Backup-Masters就会立刻得到通知，它们再次竞争注册Master节点，注册成功就可成为Active Master。FullGc引起长时间停顿。

2023-07-31 22:59:19 1314

原创大数据面试题：Kafka的单播和多播

大数据面试题：Kafka的单播和多播

2023-07-30 11:26:34 1577

原创大数据面试题：超详细版MapReduce工作原理

大数据面试题：超详细版MapReduce工作原理

2023-07-27 21:18:14 345

原创大数据面试题：Kafka怎么保证数据不丢失，不重复？

大数据面试题：Kafka怎么保证数据不丢失，不重复？

2023-07-24 21:25:28 1593

原创大数据面试题：HBase读写数据流程

大数据面试题：HBase读写数据流程

2023-07-23 14:43:18 683

原创大数据面试题：Kafka怎么保证数据不丢失，不重复？

Kafka怎么保证数据不丢失，不重复？

2023-07-22 13:17:22 674

原创大数据面试题：Kafka的消费者和消费者组有什么区别？为什么需要消费者组？

大数据面试题：Kafka的消费者和消费者组有什么区别？为什么需要消费者组？

2023-07-16 14:56:53 428

原创《阿里大数据之路》读书笔记：第二章日志采集

《阿里大数据之路》读书笔记：第二章日志采集

2023-07-04 22:52:44 915 1

原创大数据面试题：Kafka的Message包括哪些信息

大数据面试题：Kafka的Message包括哪些信息

2023-07-01 15:03:09 704

原创大数据面试题：Zookeeper架构

大数据面试题：Zookeeper架构

2023-06-29 10:26:33 786

原创大数据面试题：HBase为什么查询快

HBase为什么查询快

2023-06-22 12:04:28 1541

原创大数据面试题：Hive的cluster by 、sort by、distribute by 、order by 区别？

Hive的cluster by 、sort by、distribute by 、order by 区别

2023-06-20 12:52:22 647

原创《阿里大数据之路》读书笔记：第一章总述

阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。

2023-06-14 22:49:07 1110

原创 Hadoop的mapper和reducer的个数如何确定？reducer的个数依据是什么？

FileInputFormat按照文件分割split，并且只会分割大文件，即那些大小超过HDFS块的大小的文件。如果HDFS中dfs.block.size设置为128m，而输入的目录中文件有100个，则划分后的split个数至少为100个。当块（dfs.block.size）为128m时，如果输入文件为128m，会被划分为1个split；分片是按照splitszie的大小进行分割的，一个split的大小在没有设置的情况下，默认等于hdfs block的大小。x为reduce的数量。

2023-06-11 22:15:44 489

原创 Hive的用户自定义函数实现步骤与流程

用户创建的UDF使用过程如下：第一步：继承UDF或者UDAF或者UDTF，实现特定的方法；第二步：将写好的类打包为jar，如hivefirst.jar；第三步：进入到Hive外壳环境中，利用add jar /home/hadoop/hivefirst.jar注册该jar文件；第四步：为该类起一个别名，create temporary function mylength as 'com.whut.StringLength'，这里注意UDF只是为这个Hive会话临时定义的；

2023-05-25 13:03:40 869