
面试题
轻风细雨
加油
展开
-
Java 面试中提到RUNTIME和Checked异常
参考:https://segmentfault.com/u/lslove记录下回答:java异常般分为 hacked异常和 Runtime异常,所有 RuntimeException类及其子类的实例被称为 Runtime异常,不属于该范畴的异常则被称为 CheckedException 。java认为 hecked异常都是可以被处理的异常,所以ava程序必须显示处理 Checked异常。如果程序没有处理 Checked异常,该程序在编译时就会发生错误无法编译而 RuntimeExcepti原创 2021-01-11 16:33:15 · 241 阅读 · 1 评论 -
关于面试--【hive ORCfile 聊聊】
1建表create table temp.parquet_log( events string, header map<string,string>)STORED AS ORC;CREATE TABLE dwt.tmp_detail_pc_channel Stored AS ORC ASselect *fromORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最...原创 2020-06-20 10:19:24 · 3233 阅读 · 0 评论 -
关于面试--【hive parquet数据格式内部结构】
1创建表create table parquet_log( events string, header map<string,string>)STORED AS PARQUET;CREATE TABLE dwt.tmp_detail_pc_channel Stored AS parquet ASselect *form2PARQUET我们的开源项目Parquet是Hadoop上的一种支持列式存储文件格式,起初只是Twitter和Coudera在合...原创 2020-06-21 13:18:19 · 3481 阅读 · 0 评论 -
关于面试--【项目中为什么通常flume和kafka要共同使用?】
1整体来说我们很多人在在使用Flume和kafka时,都会问一句为什么要将Flume和Kafka集成?那首先就应该明白业务需求,一般使用Flume+Kafka架构都是希望完成实时流式的日志处理,后面再连接上Flink/Storm/Spark Streaming等流式实时处理技术,从而完成日志实时解析的目标。1. 生产环境中,往往是读取日志进行分析,而这往往是多数据源的,如果Kafka构建多个生产者使用文件流的方式向主题写入数据再供消费者消费的话,无疑非常的不方便。2. 如果Flume直接对...原创 2020-06-23 12:15:47 · 2902 阅读 · 0 评论 -
关于面试--【flume介绍已官网为基础】
在官网上有很多的介绍所以面试的时候少点自己理解多说写官网上已经有的,给面试会带来更多亮点。flume介绍Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming da原创 2020-06-22 09:59:59 · 2838 阅读 · 0 评论 -
关于面试--【Spark如何调优 】
目录1)使用foreachPartitions替代foreach。2)设置num-executors参数3)设置executor-memory参数4)executor-cores5)driver-memory6)spark.default.parallelism7)spark.storage.memoryFraction8)spark.shuffle.memoryFraction资源参数参考示例1)使用foreachPartitions替代foreach。...原创 2020-06-15 19:12:10 · 3562 阅读 · 0 评论 -
关于面试--【hadoop 和 spark 在处理数据时,处理出现内存溢出的方法有哪些?】
1. map过程产生大量对象导致内存溢出这种溢出的原因是在单个map中产生了大量的对象导致的。例如:rdd.map(x=>for(i <- 1 to 10000) yield i.toString),这个操作在rdd中,每个对象都产生了10000个对象,这肯定很容易产生内存溢出的问题。针对这种问题,在不增加内存的情况下,可以通过减少每个Task的大小,以便达到每个Task即使产生大量的对象Executor的内存也能够装得下。具体做法可以在会产生大量对象的map操作之前调用repartit原创 2020-06-24 11:17:13 · 3441 阅读 · 0 评论 -
关于面试--【kafka消息可靠性保证】
目录1、AR1.ISR2.OSR3.LEO4.HW5.HW截断机制2、生产者可靠性级别3、leader选举4、kafka可靠性的保证1、AR在Kafka中维护了一个AR列表,包括所有的分区的副本。AR又分为ISR和OSR。AR = ISR + OSR。AR、ISR、OSR、LEO、HW这些信息都被保存在Zookeeper中。1.ISRISR中的副本都要同步leader中的数据,只有都同步完成了数据才认为是成功提交了,...原创 2020-06-19 14:13:59 · 3145 阅读 · 0 评论 -
关于面试--【kafka的存储机制】
kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。所谓的分区其实就是在kafka对应存储目录下创建的文件夹,文件夹的名字是主题名加上分区编号,编号从0开始。1、segment所谓的segment其实就是在分区对应的文件夹下产生的文件。一个分区会被划分成大小相等的若干segment,这样一方面保证了分区的数据被划分到多个文件中保证不会产生体积过大的文件;另一方面可以基于这些segment文件进行历史数据...原创 2020-06-18 10:23:45 · 3038 阅读 · 0 评论 -
关于面试--【基础大数据面试题】
目录hdfs的体系结构:请列出hadoop正常工作时要启动那些进程,并写出各自的作用。一个datanode 宕机,怎么一个流程恢复?MapTask并行机度是由什么决定的?MapTask工作机制:MR是干什么的?MR的实例进程:combiner和partition的作用:什么是shuffle:secondarynamenode的主要职责是什么:用mapreduce怎么处理数据倾斜问题:一些传统的hadoop 问题,mapreduce 他就问shuffle 阶段,原创 2020-06-15 11:30:56 · 2916 阅读 · 0 评论 -
关于面试--【spark stage 的划分】
objectBaiWordCount2{defmain(args:Array[String]){.....//Createthecontextvalssc=newSparkContext(args(0),"BaiWordCount",System.getenv("SPARK_HOME"),Seq(System.getenv("SPARK_EXAMPLES_JAR")))vallines=ssc.text...原创 2020-06-12 19:19:25 · 2963 阅读 · 0 评论 -
关于面试--【Spark消费 Kafka,分布式的情况下,如何保证消息的顺序?】
Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。同一个 Partition 用一个 write ahead log 组织,所以可以保证 FIFO 的顺序。不同 Partition 之间不能保证顺序。但是绝大多数用户都可以通过 message key 来定义,因为同一个 key 的 message 可以保证只发送到同一个 Partition。比如说 key 是 user id,table row id 等等,所以同一个 user 或者同一个 record 的消息永原创 2020-06-11 19:38:12 · 3868 阅读 · 0 评论 -
关于面试--【HDFS 读写流程】
读取流程打开分布式文件:调用分布式文件 DistributedFileSystem.open( ) 方法; 寻址请求:从 NameNode 处得到 DataNode 的地址,DistributedFileSystem使用 RPC 方式调用了NameNode,NameNode 返回存有该副本的DataNode 地址,DistributedFileSystem 返回了一个输入流对象(FSDataInputStream),该对象封装了输入流 DFSInputStream; 连接到DataNode:调用输入原创 2020-06-09 15:34:29 · 3046 阅读 · 0 评论 -
力扣刷题记录
给你两个字符串,请你从这两个字符串中找出最长的特殊序列。「最长特殊序列」定义如下:该序列为某字符串独有的最长子序列(即不能是其他字符串的子序列)。子序列可以通过删去字符串中的某些字符实现,但不能改变剩余字符的相对顺序。空序列为所有字符串的子序列,任何字符串为其自身的子序列。输入为两个字符串,输出最长特殊序列的长度。如果不存在,则返回 -1。class Solution { ...原创 2020-05-06 11:13:20 · 3474 阅读 · 0 评论