
Hadoop
u4110122855
1.熟悉 Spark、 ElasticSearch、 Kafka、 Solr、 Impala等分布式开源组件
2.熟悉 Spark、 MapReduce 计算框架和工作原理,了解Tez框架
3.熟悉 Scala、 Java、C/C++等编程语言,了解html语言
4.熟悉 Linux 操作系统,能够使用Shell脚本语言编程
5.灵活使用 MySql, Oracle, MS SQL Server 等关系数据库
6.熟悉 Cloudera Hadoop 和纯粹开源 Hadoop 版本的组件
7.有较为丰富的集群部署、开发和维护管理经验
展开
-
Hadoop对各个节点的角色定义
Hadoop分别从三个角度将主机划分为两种角色。第一、最基本的划分为Master和Slave,即主人和奴隶;第二,从HDFS的角度,将主机划分为NameNode和DataNode(在分布式文件系统中,目录的管理很重要,管理目录相当于主人,而NameNode就是目录管理者);第三,从MapReduce的角度,将主机划分JobTracker 和TaskTracker(一个job经常被划分为多个Task转载 2014-04-28 15:22:22 · 7179 阅读 · 0 评论 -
Kafka组件研究<二>----Kafka部署
2.1 配置安装首先解压安装包kafka_2.11-0.10.0.0.tgz然后建立软连接 修改配置文件config/server.properties 2.2 设置环境变量在/etc/profile最后面添加如下环境变量:2.3 启动 2.4 查看&测试可以看到Kafka的进程PID号为20562原创 2016-08-01 21:10:10 · 790 阅读 · 0 评论 -
Hadoop对各个节点的角色的定义
Hadoop分别从三个角度将主机huafwei转载 2017-07-05 09:45:58 · 1149 阅读 · 0 评论 -
Spark Streaming应用与实战全攻略
Spark Streaming应用与实战系列包括以下六部分内容:背景与架构改造通过代码实现具体细节,并运行项目对Streaming监控的介绍以及解决实际问题对项目做压测与相关的优化Streaming持续优化之HBase管理Streaming任务本篇为第一部分,包括背景与架构改造、通过代码实现具体细节并运行项目、对Streaming监控的介绍以及解决实际问题、对项目做压测与相关的优化转载 2017-07-13 19:12:57 · 1715 阅读 · 0 评论 -
Hadoop和大数据:60款顶级开源工具
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大转载 2017-09-18 11:36:04 · 549 阅读 · 0 评论 -
【Hive】Hive笔记:Hive调优总结——数据倾斜,join表连接优化
数据倾斜即为数据在节点上分布不均,是常见的优化过程中常见的需要解决的问题。常见的Hive调优的方法:列剪裁、Map Join操作、 Group By操作、合并小文件。 一、表现 1.任务进度长度为99%,在任务监控页面中发现只有几个 reduce 子任务未完成; 2.单一 reduce 记录与平均记录数差异过大(大于3倍),最长时长>>平均时长; 3.job数多的,效...转载 2018-02-09 14:19:18 · 682 阅读 · 0 评论