【大数据面试】【项目开发经验】Hadoop、Flume、Kafka、Hive、MySQL、Sqoop、Azkaban、Spark...

最新推荐文章于 2024-11-22 19:04:12 发布

原创

最新推荐文章于 2024-11-22 19:04:12 发布 · 794 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #大数据 #hive #面试 #flume

主要内容：框架层面的调优、业务经验

一、Hadoop

1、Hadoop基准测试(HDFS的读写性能、MapReduce的计算能力测试)

(1)测试内容：文件上传下载的时间

(2)服务器有几个硬盘插槽

2/4块

问题：2块4T和一块8T的哪个贵

2块4T的贵，可靠性更高一些

(3)加了磁盘，默认情况下不会直接能够使用

需要负载均衡，保证每个目录数据均衡

开启数据均衡命令：
bin/start-balancer.sh –threshold 10：集群中各个节点的磁盘空间利用率相差不超过10%

均衡了差不多，就需要杀掉此进程bin/stop-balancer.sh

2、HDFS参数调优

线程池：调整NN和DN之间的通信：处理与datanode的心跳(报告自身的健康状况和文件恢复请求)和元数据请求

dfs.namenode.handler.count=20 * log2(Cluster Size)

3、yarn的参数调优

(1)服务器节点上YARN可使用的物理内存总量，默认是8192(MB)
(2)单个任务可申请的最多物理内存量，默认是8192(MB)

NN、DN、shuffle的默认大小为1G

4、HDFS和硬盘使用控制在70%以下

5、Hadoop宕机

MR造成系统宕机：调整上述y

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

哥们要飞

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

十年项目经验面试官亲传大数据面试__大数据面试独孤九剑

Maynor的博客

06-11

2522

> 大家好,我是**ChinaManor**,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。面试之前，需要针对每个大数据项目，整理一套属于自己基础知识，必须熟记于心

flume sqoop kafka使用小结

逐梦的博客

09-23

4304

1.flume flume是高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。flume不仅可以采集数据，还可以对数据进行简单的处理。 flume的文件采集source工具只能识别文本数据。 2.flume-ng flume-ng中，flume的集群只有一种角色agent agent中有三种组件：source、channel、sink source作用是采集数据，它可...

参与评论您还未登录，请先登录后发表或查看评论

Hadoop、Spark、Flink、Hive、Flume、kafka等大数据框架的角色和关系

QAQ_JUIMY的博客

12-20

7145

大数据框架

HADOOP大数据离线分析+实时分析框架；Hadoop+Flume+Kafka+Storm+Hive+Sqoop+mysql/oracle

我的博客

04-24

1398

链接: https://blog.csdn.net/qq_26840065/article/details/51482920# 链接: kafka2.9.2的伪分布式集群安装和demo(java api)测试 https://mshk.top/2014/08/kafka/ 链接: kafka+flume+hdfs实时日志流系统初探 https://blog.csdn.net/feinifi/ar...

7种最常见的Hadoop和Spark项目

济天下68的博客

12-02

913

7种最常见的Hadoop和Spark项目如果您的Hadoop项目将有新的突破，那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情，他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm，每个人都认为他们正在做一些与这些新的

大数据开发岗位面试经验总结（一线、二线，独角兽，外企，外国企业）

简单就好

06-11

2万+

为什么想走？跟很多人也许不同，我不是觉得待遇不好，反而认为陌陌在互联网公司中的待遇算一股清流了：额外家属子女商业保险、总包差不多17薪、每年出国团建、加班少、工作氛围愉快，没有所谓大公司政治斗争，这些对于我毕业第一份工作已经非常满意。可我还是想离开，主要是觉得个人成长已经很缓慢，工作没有太大压力，而内心很想逃出舒适区，于是想离职的想法逐渐萌芽。整个面试差不多持续1个半月，从刚开始懵懵懂懂准...

03-26

本压缩包包含了多个关键组件，包括Hadoop、Hive、Flume、MySQL、Kafka、Spark、Sqoop和Azkaban，这些都是大数据生态系统中的重要组成部分。 1. **Hadoop**：Hadoop是Apache开源项目，核心是分布式文件系统HDFS...

大数据环境搭建 Hadoop+Hive+Flume+Sqoop

JM1307hhh的博客

06-15

1658

大数据Hadoop生态圈环境搭建，主要针对离线项目，利用HDFS进行分布式存储，MapReduce进行离线计算，Hive进行数据分析。

大数据技术学习笔记与实战教程_包含Hadoop_Hive_Spark_Storm_Flink_HBase_Kafka_Zookeeper_Flume_Sqoop_Azkaban_S.zip

最新发布

07-28

大数据技术学习笔记与实战教程_包含Hadoop_Hive_Spark_Storm_Flink_HBase_Kafka_Zookeeper_Flume_Sqoop_Azkaban_S.zip

精选资源

Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala

05-05

大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南一、Hadoop 分布式文件存储系统：HDFS 分布式计算框架：MapReduce 集群资源管理器：YARN 单机伪集群环境搭建集群环境搭建常用 Shell 命令 Java API ...

五年经验大佬带你掌握基于Hadoop与Spark的大数据开发实战

Hadoop环境搭建教程

01-08

1065

前言：本书以Hadoop和Spark为核心，阐述了基于这两种通用大数据处理平台的应用开发技术。在Hadoop生态圈中，从HDFS初识分布式存储系统;以MapReduce详解f分布式计算的步骤;利用HBase分析适合非结构化数据存储的分布式数据库;利用Hive分析将SQL查询转化为分布式计算的过程;并结合项目案例“音乐排行榜”练习Hadoop核心技能点的运用;同时，介绍了几种...

大数据hadoop，spark，hive等等面试汇总

07-20

常见java面试，大数据方面，hadoop原理，hive，hbase，spark面试等的常问问题

Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

06-22

1、内容概要：Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+Elasticsearch+Redash等大数据集群及组件搭建指南（详细搭建步骤+实践过程问题总结）。 2、适合人群：大数据运维、大数据相关技术及组件初学者。 3、能学到啥：大数据集群及相关组件搭建的详细步骤，了解大数据各组件的用途，深入认识各大数据组件工作原理及优化方案。 4、阅读建议：使用过以上大数据组件进行简单开发、了解以上大数据组件的相关功能。 5、资源价值：大数据组件搭建的详细实践步骤、一次性提供较全面的常用大数据集群及组件安装部署内容、资源是博主结合官网文档+网上各类搭建文档+本人亲自实践后总结整合的文档（包括过程踩坑记录+对应解决方案）。

大数据笔记，包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK......

05-08

Hadoop和hive大数据面试题

05-20

Hadoop和hive大数据面试题，压缩包一共有三个文件一共超过两百个大数据就业实用相关面试题

大数据面试

pbyang_love的博客

07-14

725

大数据面试题及答案-汇总版

2020-JAVA-大数据-面试汇总_大数据java部门面试

2401_89087500的博客

11-22

834

当然可以，这个问题我可是仔细研究过，哈哈。

大数据环境搭建步骤详解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安装与配置）

热门推荐

pig2guang的博客

01-02

4万+

基本配置系统：CentOS7.6 节点信息：节点 ip master 192.168.185.150 slave1 192.168.185.151 slave2 192.168.185.152 网络配置 # 注意：centos自从7版本以后网卡名变成ens33而不是我这里的eth0了，我是习惯eth0了所以在安装的时候修改了网卡名，如果你的centos网卡名是e...

Spark项目实战经验

weixin_44765495的博客

03-07

982

1.参数设置 spark.streaming.kafka.maxRatePerPartition 控制spark streaming消费kafka速度 spark.streaming.backpressure.enabled 打开背压消费速度是动态浮动的，上限由spark.streaming.kafka.maxRatePerPartition决定 spark.streaming.stopGrac...

java课程设计:基于hadoop hive flume sqoop scale kafka mysql spark的可视化项目

06-25

### 项目概述开发一个基于多种大数据技术的数据可视化项目，涉及多个组件的协同工作。以下是一个典型的设计与实现方案： ### 架构设计 #### 数据采集层使用 **Flume** 和 **Kafka** 进行数据采集和传输。Flume 负责从各种数据源（如日志文件、传感器等）收集数据，并将其发送到 Kafka 中，作为消息队列[^2]。 ```bash # Flume 配置示例 agent.sources = r1 agent.channels = c1 agent.sinks = k1 agent.sources.r1.type = netcat agent.sources.r1.bind = localhost agent.sources.r1.port = 44444 agent.channels.c1.type = memory agent.channels.c1.capacity = 1000 agent.sinks.k1.type = logger agent.sources.r1.channels = c1 agent.sinks.k1.channel = c1 ``` #### 数据存储层使用 **Hadoop HDFS** 存储原始数据，**Hive** 和 **HBase** 用于结构化和半结构化的数据存储。**Parquet** 或 **ORC** 格式用于 Hive 表存储以提高查询效率[^2]。 ```sql -- Hive 创建 Parquet 表示例 CREATE TABLE parquet_table ( id INT, name STRING ) STORED AS PARQUET; ``` #### 数据处理层使用 **Spark** 进行实时和批处理任务。Spark 可以从 Kafka 读取数据进行实时处理，也可以从 HDFS 读取数据进行批处理。处理后的结果可以写入 MySQL 或其他数据库。 ```scala // Spark 实时处理 Kafka 数据示例 import org.apache.spark._ import org.apache.spark.streaming._ val conf = new SparkConf().setAppName("KafkaReceiver") val ssc = new StreamingContext(conf, Seconds(5)) val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer], "value.deserializer" -> classOf[StringDeserializer], "group.id" -> "spark-streaming-group", "auto.offset.reset" -> "latest", "enable.auto.commit" -> (false: java.lang.Boolean) ) val topics = Array("input-topic") val stream = KafkaUtils.createDirectStream[String, String]( ssc, LocationStrategies.PreferConsistent, ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) ) stream.map(record => record.value) .foreachRDD { rdd => // 处理 RDD 数据 } ssc.start() ssc.awaitTermination() ``` #### 数据导入层使用 **Sqoop** 将处理后的数据从 Hive 导出到 MySQL。如果 Hive 表使用了 Parquet 或 ORC 格式，则需要先转换为 Text 格式再导入 MySQL。 ```bash # Sqoop 导出数据到 MySQL 示例 sqoop export \ --connect jdbc:mysql://localhost:3306/mydb \ --username root \ --password password \ --table mytable \ --export-dir /user/hive/warehouse/mytable ``` #### 数据可视化层使用 **Tableau** 或 **Power BI** 等工具连接 MySQL 数据库，进行数据可视化展示。 ### 实现步骤 1. **部署环境**：搭建 Hadoop、Hive、HBase、Spark、Kafka、Flume、Zookeeper、Phoenix、Sqoop 和 Azkaban 等组件。 2. **数据采集**：配置 Flume 和 Kafka，确保数据能够顺利采集并传输。 3. **数据存储**：在 HDFS 上存储原始数据，并使用 Hive 和 HBase 进行结构化存储。 4. **数据处理**：编写 Spark 应用程序进行实时和批处理。 5. **数据导入**：使用 Sqoop 将处理后的数据导入 MySQL。 6. **数据可视化**：使用 Tableau 或 Power BI 连接 MySQL 数据库，进行数据可视化。 ### 总结通过上述架构设计和实现步骤，可以构建一个完整的基于多种大数据技术的数据可视化项目。每个组件都发挥了其独特的作用，从数据采集到存储、处理、导入再到最终的可视化展示，形成了一个闭环的数据处理流程。