
知识点总结
Imflash
分享知识,分享快乐
展开
-
zookeeper篇
问题 1 你怎么理解 zookeeper?Zookeeper 是 Google 的 Chubby 的开源实现,是 Hadoop 的分布式协调服务它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等zookeeper 能干什么1、 确保集群中只有一个主2、 监控集群中的节点是否存活,进行分配资源。3、 将配置信息存入 zookeeper,集群中启动时可以读取...原创 2019-08-29 22:33:08 · 187 阅读 · 0 评论 -
flume+kafka篇
问题1、谈谈对kafka的理解,kafka如何保证数据不丢失问题2、Kafka和sparkStreaming的整合,手动提交的offset调用了什么方法?问题3、hive怎么消费kafka的数据的问题4、kafka如何管理自身的offset问题5、Kafka如何管理自身的offset问题6、kafka如何保证数据不会出现丢失或者重复消费的情况?问题7、kafka消费数据是怎么消费的,用...原创 2019-09-22 10:37:11 · 659 阅读 · 0 评论 -
hive篇
问题 1 说一下hive底层转为MapReduce ,底层是怎么转的[外链图片转存失败(img-TM3VhX7p-1567092295330)(assets/1566034076895.png)][外链图片转存失败(img-nOC78XJd-1567092295331)(assets/1566034087115.png)](3) 优化器(Query Optimizer):对逻辑执行计划进行优...原创 2019-09-21 22:40:11 · 1079 阅读 · 0 评论 -
hive与数据仓库篇
问题1、在hive中如何处理小文件合并问题问题2、hive的存储格式,以及压缩算法问题3、是用什么ETL工具进行hive中数据的ETL问题4、如何保证hive中数据的质量问题5、hive数据仓库的设计,项目中分了几层,每层有什么意义问题6、hive优化经验问题7、hive数据仓库中的建模方式,为什么选择这种建模方式问题8、分布式数据仓库的整体组织结构问题9、数据仓库如何同步,使用什...原创 2019-09-21 22:34:42 · 485 阅读 · 0 评论 -
HBase篇
问题1、HBase的gc调优,为什么问题2、HBase的读写机制问题3、HBase如何设计rowkey,如何在负载均衡和读写性能之间做出平衡问题4、hive和hbase的区别问题5、介绍hbase的协处理器...原创 2019-09-20 23:14:41 · 237 阅读 · 0 评论 -
kafka笔记
kafka消息队列1.消息队列的作用:解耦:快递异构:同步变异步缓冲:削峰填谷,降低下游服务器的压力,减少生产成本2.消息模式的分类:点对点:生产者生产的消息只能被一个消费者所消费发布/订阅:生产者生产的数据可以被多个消费者所消费主题topic:就是消息的分类生产者:生产数据的系统消费者:获取数据的系统3.消息队列的介绍大部分都是基于JMS(java m...原创 2019-09-06 22:43:53 · 379 阅读 · 0 评论 -
Apache Oozie笔记
Apache OozieApache oozie是一个工作流调度软件 本身属于cloudera 后来贡献给了apacheoozie目的根据一个定义DAG(有向无环图)执行工作流程oozie本身的配置是一种xml格式的配置文件 oozie跟hue配合使用将会很方便oozie特点:顺序执行 周期重复定时 可视化 追踪结果Apache OozieOozie ...原创 2019-09-06 22:19:46 · 781 阅读 · 0 评论 -
Apache Impala笔记
Apache Impalaimpla是个实时的sql查询工具,类似于hive的操作方式,只不过执行的效率极高,号称当下大数据生态圈中执行效率最高的sql类软件impala来自于cloudera,后来贡献给了apacheimpala工作底层执行依赖于hive 与hive共用一套元数据存储。在使用impala的时候,必须保证hive服务是正常可靠的,至少metastore开启。impala...原创 2019-09-02 15:25:04 · 354 阅读 · 0 评论 -
Azkaban笔记
Azkabanazkaban是由领英退出的一款开源免费的工作流调度器软件特点功能强大 可以调度几乎所有软件的执行(command)配置简单 job配置文件提供了web页面使用java语言开发 源码清晰可见 可以进行二次开发架构web服务器 :对外提供web服务 用户在页面上进行项目的相关管理executor服务器:负责具体的工作流的调度提交。数据库:用于保存...原创 2019-09-01 12:50:32 · 184 阅读 · 0 评论 -
Apache Sqoop笔记
Apache Sqoopsqoop 安装验证bin/sqoop list-databases \--connect jdbc:mysql://localhost:3306/ \--username root --password hadoop注意事项:命令携带参数必须出现在一行中,若换行就意味着自动提交执行,可通过\表示未结束。全量导入数据到hdfsmysql的地址尽量...原创 2019-08-30 18:50:58 · 157 阅读 · 0 评论 -
hadoop篇
hadoop 篇问题 1 大数据如何存储?举例说明说明 hdfs 的存储机制,不仅限于存储机制、机架感知等,这道面试题的目的不仅仅是想问你存储的机制,而是想问你在公司是如何进行大数据存储的,这时候你就要从两方面着手回答这个问题:1、 公司 hdfs 集群的设计方式,采用多少台机器,存储策略是什么样的2、 存储的手段是采用的 sqoop、canel 还是 flume、logstash问题...原创 2019-08-29 23:21:55 · 466 阅读 · 0 评论 -
Apache Flume笔记
Apache Flume概述flume是一款大数据中海量数据采集传输汇总的软件。特别指的是数据流转的过程,或者说是数据搬运的过程。把数据从一个存储介质通过flume传递到另一个存储介质中。核心组件source :用于对接各个不同的数据源sink:用于对接各个不同存储数据的目的地(数据下沉地)channel:用于中间临时存储缓存数据运行机制flume本身是ja...原创 2019-09-26 10:43:09 · 212 阅读 · 0 评论