
面试题
文章平均质量分 84
面试题
大数据精读周刊
这个作者很懒,什么都没留下…
展开
-
大数据Spark面试题2023
Shuffle描述的是一个过程,表现多对多的依赖关系,是Map和Reduce两个阶段的纽带,是对数据重新分区的过程,将经过mapTask后,key值相同的数据重新划分到同一个partition中。Shuffle实现分为和,也可以自定义。shuffle简介:在 DAG 阶段以shuffle为界,划分 stage,上游 stage做 map task,每个maptask将计算结果数据分成多份,每一份对应到下游stage 的每个partition中,并将其临时写到磁盘,该过程叫做shuffle write。原创 2022-11-23 15:00:00 · 1374 阅读 · 0 评论 -
Presto: 是谁偷走了我的一天
最近在数据迁移的过程中遇到一个好玩的 当我们要计算两个日期的间隔的是时候需要调用一些数据分析组件内置的函数, 如下所示: 代码表示的含义很简单 就是计算8月9日和8月8日之间相隔天数, 但是这样的计算的结果竟然不相同: 竟然出现同样的时间段里比多一天这种情况. 即在分析中得到是相隔一天, 但是在分析中得到数据只有0天 .(组件版本号: )探究遇事不決 量子力学; 问题是小问题, 但是假如运用到生活的例子是你发工资的时候计算的时长, 这不就少计算一天. 为了打工人, 一定要找到是谁原创 2022-08-06 14:02:22 · 2604 阅读 · 4 评论 -
大数据面试题——spark
讲一下spark 的运行架构????Cluster Manager(Master):在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器???? Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。???? Driver: 运行Application 的main()函数???? Executor:执行器,是为某个Application运行在worker node上的一个进程一个spark程序的执行流程原创 2022-06-30 14:38:46 · 2016 阅读 · 5 评论 -
大数据学习规划
阶段时间技能输入输出SQL基础8.4-8.81.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点1、hive编程指南2、SQL 必知必会1、学习笔记2、考试ODEON平台使用8.4-8.81.sql测试方法2.workflow维护,报错如何查看3.workflow如何部署4.coordinate如何部署5.如何用金蝉平台运维odeon6.理解每一步的作用和用意1、odeon帮助文档2、wiki资料H-odeon....原创 2022-06-21 10:09:13 · 979 阅读 · 0 评论 -
大数据生态
1、消息队列:大数据推荐学习Kafka2、数据处理:Spark、Flink(二者可以选其一重点研究)3、数据存储: HBase、HDFS、MYSQL、Redis(都很重要,至少选择2个深入研究)4、数据分析: Hive(数仓)5、资源管理:YARN、Mesos(二选一)6、分布式:Zookeeper(必须好好学,面试必问的)...原创 2022-01-31 14:40:15 · 1868 阅读 · 0 评论 -
面试技巧(仅供参考)
好的面试也是这样,你必须经过充分的准备和练习,才能使自己在面试中大放异彩。1.开始面试时即进入一种轻松的注意力集中状态。 这种状态是杰出的网球运动员、篮球运动员或花样滑冰运动员在开始比赛时所具有的。你可以在开始面试前通过沉思和冥想来去除心中的杂念,把注意力集中在当前的面试上,从而使你不至陷入紧张、自责和自我怀疑的状态。2.要表现自然。 这种自然来自于你面试前的充分准备。要表现出真实的自我,表现出自己的专业性,与面试者诚实地对话。面试前,应与你的家人或朋友做几次模拟面试,就像期末考试前设想可能出现原创 2022-01-27 18:41:13 · 657 阅读 · 0 评论 -
大数据面试题——zookeeper
文章目录zookeeper是什么,有什么功能讲一下leader 选举过程zk 有几种部署模式zookeeper采用的哪种分布式一致性协议? 还有哪些分布式一致性协议zookeeper watch机制说一下zk的通知机制zk是怎样保证主从节点的状态同步——ZAB分布式协议ZAB过程ZAB协议原理----------------------------------Leader选举算法分析zookeeper是什么,有什么功能用途分布式锁服务注册和发现????利用Znode和Watcher,可以实原创 2022-01-08 21:32:45 · 1528 阅读 · 1 评论 -
大数据面试题——hadoop(hdfs、mapreduce、yarn)
文章目录Hadoop请说下 HDFS 的组织架构请说下 HDFS 读写流程HDFS 写流程HDFS 读流程NameNode 在启动的时候会做哪些操作Hadoop的HA的了解(High Availability高可用,HA)AvatarNode方案QJM架构在 NameNode HA 中,会出现脑裂问题吗?怎么解决脑裂10. 请说下 MapReduce组织架构MapReduce过程mapreduce12. 请说下 MR 中 shuffle 阶段13. shuffle 阶段的数据压缩机制了解吗14. 在写 MR原创 2022-01-08 10:58:40 · 1636 阅读 · 1 评论 -
大数据面试题——数据仓库
文章目录数据仓库什么是数据仓库?数据库与数据仓库的区别?事实表和维度表数据仓库的数据模型:为什么数据仓库要分层?数据仓库模式:Kimball (金箔)和 Inmon(恩门)数据库架构——Lambda架构和Kappa架构数据仓库五步法的流程ETL、ELT数据仓库什么是数据仓库?数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。用于数据存储,数据分析和数据决策的系统。 【重点是分析数据,为了企业提供决策支持 Decision Support】数据仓库描述是⼀个⾯向主题的、集成的、随原创 2022-01-07 21:48:11 · 1699 阅读 · 0 评论 -
大数据面试题——数据库
文章目录@[toc]MySQL常用的存储引擎有什么区别?为什么要用索引?索引算法有哪些?Hash索引和B+树的区别?B树和B+树的区别?数据库为什么使用B+树而不是B树?索引的种类有哪些?创建索引的原则有哪些?什么是最左匹配原则?什么是聚簇索引,什么是非聚簇索引?数据库的三大范式是什么?索引在什么情况下会失效?什么是数据库的事务?事务的四大特性(ACID)是什么?数据库的并发一致性问题数据库的隔离级别有哪些?什么是MVCC?MySQL中都有哪些触发器?SQL语句主要分为哪几类超键、候选键、主键、外键分别是什原创 2022-01-07 20:22:20 · 1157 阅读 · 0 评论 -
大数据面试题——hive
hive1. hive 内部表和外部表的区别未被 external 修饰的是内部表(managed table),被 external 修饰的为外部表(external table)区别:内部表数据由 Hive 自身管理,外部表数据由 HDFS 管理;内部表数据存储的位置是 hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定(如果没有 LOCATION,Hive 将在 HDFS 上的 / user/hive/原创 2022-01-07 20:17:20 · 903 阅读 · 0 评论 -
大数据面试题
一面 1h1.自我介绍2.自我介绍项目的一些问题3.问:多线程熟悉么?答:多线程了解,但没在项目中使用过问:那说一下线程的状态线程那种状态切换会释放cpu?string是不可变的,那不可变的好处是什么呢?6.说说stringBuffer和stringBuilder7.说一下CMS垃圾回收器。。。java相关的应该还有一些问题,这里记不太清了,接下来是大数据相关的问题0.你是怎么学习大数据的?你都看过那些书?1.你对大数据那个方面或者框架最熟悉?2.说一下yarn的整个原创 2022-01-07 19:35:20 · 824 阅读 · 0 评论