
大数据高频面试题
文章平均质量分 83
荩辞
这个作者很懒,什么都没留下…
展开
-
Hbase写数据流程详解
1. 先说总结的话: 客户端client 通过zookeeper 获知meta表所在的节点,又通过table和rowkey在meta表中找到 要进行操作的region的节点 进行发送请求,请求先追加写入wal日志中,然后数据写入到对应的MEMstore中 并在哪里进行排序之后regionserver会返回ack进行核对。详解:meta表的地址 在 zookeeper的 根目录下的 base 下的 meta-region-server中 人工查看的话 是乱码 然后是节点名称和 hbase机器的.原创 2021-03-04 15:33:27 · 349 阅读 · 1 评论 -
大数据重点
一、Linux 1、常用高级命令列出5个 ps -ef top df -h io top xargs tail uptime netstat cd ls mkdir 2、查看磁盘使用情况、查看进程、查看端口号 df -h top ps netstat二、Shell 1、常用工具 (只需要知道名称) awk、sed 、cut sort 京东 遍历文件夹,读取文件,读取哪...原创 2021-02-24 17:35:25 · 1064 阅读 · 0 评论 -
大数据高频面试题——手写HQL
目录8.3手写HQL8.3.1 手写HQL 第1题8.3.2 手写HQL 第2题8.3.3 手写HQL 第3题8.3.4 手写HQL 第4题8.3.5 手写HQL 第5题8.3.6 手写HQL 第6题8.3.7 手写HQL 第7题8.3.8 手写SQL 第8题8.3.9 手写HQL 第9题8.3.10 手写HQL 第10题8.3.11 手写HQL 第11题8.3手写HQL8.3.1 手写HQL 第1题表结构:uid,subject_i...原创 2021-02-23 21:22:57 · 960 阅读 · 0 评论 -
大数据面试详解-scala
1.10Scala1.10.1开发环境要求掌握必要的scala开发环境搭建技能。3步:给项目增加scala支持1.10.2变量和数据类型掌握var和val的区别掌握数值类型(Byte、Short、Int、Long、Float、Double、Char)之间的转换关系1.10.3流程控制掌握if-else、for、while等必要的流程控制结构,掌握如何实现break、continue的功能。if-els...原创 2021-02-23 21:22:19 · 155 阅读 · 0 评论 -
大数据面试 - 其他
目录2.4框架版本选型2.5服务器选型2.6 集群规模第4章生产经验—业务4.1 电商常识4.1.1 SKU和SPU4.1.2 订单表跟订单详情表区别?4.2 埋点行为数据基本格式(基本字段)4.2.1 页面4.2.2事件4.2.3曝光4.2.4启动4.2.5错误4.2.6 埋点数据日志格式4.3 电商业务流程4.4维度表和事实表(重点)4.4.1维度表4.4.2 事实表4.5 同步策略(重点)4.6...原创 2021-02-23 21:18:54 · 310 阅读 · 0 评论 -
大数据面试总结 - scala & sqoop
1.7 Sqoop1.7.1 Sqoop参数/opt/module/sqoop/bin/sqoop import \--connect \--username \--password \--target-dir \--delete-target-dir \--num-mappers \--fields-terminated-by \--query "$2" ' and $CONDITIONS;'1.7.2 Sqoop导入导出Null存储一致性问题Hiv..原创 2021-02-23 21:11:05 · 1653 阅读 · 2 评论 -
大数据高频面试题——hadoop详解
1.2 Hadoop1.2.1 Hadoop常用端口号1.2.2 Hadoop配置文件以及简单的Hadoop集群搭建(1)配置文件:Hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slavesHadoop3.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml workers(2)简单的集群搭建过程:JDK安装配置SSH免密登录原创 2021-02-23 20:56:36 · 445 阅读 · 0 评论 -
大数据技术高频面试题——kafka
1.5Kafka1.5.1 Kafka架构生产者、Broker、消费者、ZK;注意:Zookeeper中保存Broker id和消费者offsets等信息,但是没有生产者信息。1.5.2 Kafka的机器数量Kafka机器数量=2*(峰值生产速度*副本数/100)+11.5.3 副本数设定一般我们设置成2个或3个,很多企业设置为2个。副本的优势:提高可靠性;副本劣势:增加了网络IO传输1.5.4 Kafka压测Kafka官方自带压力测试脚本...原创 2021-02-23 20:39:51 · 360 阅读 · 0 评论 -
大数据技术高频面试题——hive
1.6 Hive1.6.1 Hive的架构1.6.2 Hive和数据库比较Hive和数据库除了拥有类似的查询语言,再无类似之处。1)数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的, 3)执行延迟Hive执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现...原创 2021-02-23 15:08:30 · 211 阅读 · 0 评论 -
大数据技术高频面试题——数据倾斜 1_不含spark
1.13数据倾斜公司一:总用户量1000万,5台64G内存的服务器。公司二:总用户量10亿,1000台64G内存的服务器。1.公司一的数据分析师在做join的时候发生了数据倾斜,会导致有几百万用户的相关数据集中到了一台服务器上,几百万的用户数据,说大也不大,正常字段量的数据的话64G还是能轻松处理掉的。2.公司二的数据分析师在做join的时候也发生了数据倾斜,可能会有1个亿的用户相关数据集中到了一台机器上了(相信我,这很常见)。这时候一台机器就很难搞定了,最后会很难算出结果。1.13..原创 2021-02-23 11:12:27 · 402 阅读 · 0 评论 -
大数据高频面试题——linux&shell-详解
1.1 Linux&Shell1.1.1 Linux常用高级命令序号 命令 命令解释1 top 查看内存2 df -h 查看磁盘存储情况3 iotop 查看磁盘IO读写(yum install iotop安装)4 iotop -o 直接查看比较高的磁盘读写程序5 netstat -tunlp | grep 端口号 查看端口占用情况6 uptime 查看报告系统运行时长及平均负载7 ps -aux 查看进程1.1.2 Shell常用工具及写过的脚本1)awk、sed、cut、so原创 2021-02-20 16:31:30 · 263 阅读 · 0 评论