
Hadoop
文章平均质量分 87
分享Hadoop/CDH安装、管理、应用开发的记录和心得体会。
padluo
这个作者很懒,什么都没留下…
展开
-
从 WordCount 执行流程理解 Spark 中 application 、 job 、 stage 、 task 的关系
从 WordCount 执行流程理解 Spark 中 application 、 job 、 stage 、 task 的关系原创 2024-04-26 15:21:13 · 722 阅读 · 4 评论 -
理解 map 和 reduce 的实现
用实际案例理解 map 和 reduce 的实现原创 2022-02-19 11:24:16 · 674 阅读 · 0 评论 -
使用DBeaver访问Kerberos环境下的Hive
应用背景有时想看看大数据平台上Hive表的结构和数据字典,或者对数据进行简单查询、核验,可以装一个SQL开发工具访问CDH集群中的Hive。测试环境:CDH版本为5.13.1客户端OS为Windows 10或Windows 7.配置Kerberos客户端环境在客户端OS Windows 10或Windows 7上安装Kerberos客户端,在Kerberos官网下载,地址如下,h...原创 2019-04-19 23:37:58 · 3043 阅读 · 0 评论 -
从用户连续活跃的最大天数说起
问题引入最近经常碰到这样的问题,每天每个城市播放最多的10首歌,某月每支股票连续下跌/上涨的最大天数,用户连续活跃的最大天数,初步看起来都和分析函数相关,考验逻辑思维和写复杂SQL的能力。以用户连续活跃的最大天数为例以Oracle的分析函数语法说明,首先模拟一些用户活跃的数据,-- 建表语句DROP TABLE sigin;create table sigin(userid...原创 2018-07-19 13:01:11 · 3232 阅读 · 0 评论 -
Spark实战(6)_spark-sql -e -f -i命令的整合和spark-sql日常作业开发流程总结
背景介绍 在日常工作中,我们可以在一个shell脚本里面利用spark-sql -e执行sql脚本,而且可以传参数,但是存在一个问题,shell脚本对格式要求严格,而且shell脚本和spark-sql的脚本混在一起,内容庞大凌乱,不好管理。而spark-sql -f可以执行一个hql文件,但是不能传参数进去,这就引出了一个问题,有没有一种方法,既可以把shell和hql脚本分开,shell负责调...原创 2018-05-24 21:47:58 · 15681 阅读 · 3 评论 -
Spark实战(5)_Spark Core核心编程
Spark版本 cdh5.9.0集成的spark的版本1.6.0,集成的hadoop版本2.6.0。查看的网址:http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5.9.0/如果用cdh5.9.0 parcels离线安装自带的spark(on yarn),启动时提示缺少包,需要修改spark-env.sh的配置SPARK_DIST_CLASS...原创 2018-05-10 18:25:39 · 1926 阅读 · 0 评论 -
Scala的Class、Object、Trait
开发环境 ideaIU或ideaIC。idea的scala插件,File-Setting-Plugins,搜索scala在线安装,或下载后离线安装Install plugin from disk。加载scala的包,Project Structure,Global Libraries,添加scala-sdk。基础 scala中,break和continue的实现, 1package com.pad...原创 2020-03-08 15:12:29 · 194 阅读 · 0 评论 -
Spark实战(4)_Master原理剖析与源码分析
主备切换机制原理剖析Master可以配置两个,Spark原生的standalone模式支持Master主备切换。Spark Master主备切换可以基于两种机制,一种是基于文件系统的,一种是基于ZooKeeper的,基于文件系统的主备切换机制,需要在Active Master挂掉之后,手动去切换到Standby Master上。基于ZooKeeper的主备切换机制,可以实现自动切换Master。M...原创 2020-03-08 15:12:06 · 220 阅读 · 0 评论 -
Spark实战(3)_SparkContext原理剖析与源码分析
TaskScheduler的初始化机制TaskScheduler,如何注册Application,executor如何反向注册?TaskScheduler的初始化机制createTaskScheduler(),内部会创建三个东西。一是TaskSchedulerImpl,它其实就是我们所说的TaskScheduler。二是SparkDeploySchedulerBackend,它在底层会负责接收Ta...原创 2020-03-08 15:11:46 · 119 阅读 · 0 评论 -
Spark实战(2)_Spark内核架构剖析
Standalone模式提交Spark应用的机器,Application(自己的Spark程序),spark-submit(shell)提交Application。Driver(启动一个进程),spark-submit使用Standalone模式提交Application的时候,其实会通过反射的方式,(在本机/客户端)创建和构造一个DriverActor进程出来。Driver执行我们的Applic...原创 2018-04-26 18:19:42 · 518 阅读 · 0 评论 -
Scala学习笔记05_面向对象编程之类和对象
定义一个简单的类 1// 定义类,包含field及方法 2scala> :paste 3// Entering paste mode (ctrl-D to finish) 4class HelloWorld { 5 private var name = "leo" 6 def sayHello() {print("Hello, " + name)} 7 def getNam...原创 2020-03-08 15:11:29 · 286 阅读 · 0 评论 -
Scala学习笔记04_Map与Tuple
创建Map 1// 创建一个不可变的Map 2scala> val ages = Map("Leo" -> 30, "Jen" -> 25, "Jack" -> 23) 3scala> val ages = Map("Leo" -> 30, "Jen" -> 25, "Jack" -&am原创 2020-03-08 15:11:12 · 215 阅读 · 0 评论 -
Scala学习笔记03_数组
ArrayArray,长度不可改变的数组,Scala数组的底层实际上是Java数组,如字符串数组在底层就是Java的String[],整数数组在底层就是Java的Int[]。 1// 数组初始化后,长度就固定下来了,而且元素全部根据其类型初始化 2scala> val a = new Array[Int](10) 3a: Array[Int] = Array(0, 0, 0, 0, 0,...原创 2020-03-08 15:10:57 · 170 阅读 · 0 评论 -
Scala学习笔记02_函数入门
函数入门函数的定义与调用,在Scala中定义函数时,需要定义函数的函数名、参数、函数体。 1scala> :paste 2// Entering paste mode (ctrl-D to finish) 3def sayHello(name:String, age:Int) = { 4 if(age >= 18) { 5 printf("Hi, %s, you are...原创 2020-03-08 15:10:33 · 170 阅读 · 0 评论 -
Scala学习笔记01_条件控制与循环
if表达式if表达式的定义,if表达式是有值的,就是if或else中最后一行语句返回的值。1scala> val age = 302age: Int = 303scala> val isAdult = if(age > 18) 1 else 04isAdult: Int = 1if表达式的类型推断,if和else子句的值类型可能不同,Scala会自动进行推断,取两个类型的...原创 2020-03-08 15:10:16 · 286 阅读 · 0 评论 -
分布式消息队列Kafka学习笔记
Kafka概述 a distributed streaming platformKafka架构和核心概念producer, 生产者,生产馒头。consumer, 消费者,吃馒头。broker, 篮子。topic, 主题,给馒头带一个标签,topica的馒头是给你吃的,topicb的馒头是给你弟弟吃。Zookeeper集群部署安装包解压,1tar -xzvf zookeeper-3.4.5.tar...原创 2020-03-08 15:09:57 · 248 阅读 · 0 评论 -
分布式日志收集框架Flume学习笔记
业务现状分析我们有很多servers和systems,比如network device、operating system、web server、Application,他们会产生日志和其他数据,如何使用这些数据呢?可以把源系统的日志数据移到分布式的存储和计算框架上处理,如何解决?shell cp hadoop集群的机器上,hadoop fs -put …,有一系列问题,容错、负载均衡、高延时、压缩...原创 2020-03-08 15:09:42 · 279 阅读 · 0 评论 -
Flume+Kafka+Storm模拟应用日志的实时处理
模拟应用需求采集订单系统应用打印的日志文件。日志文件使用log4j生成,滚动生成。使用tail -F xxx.log来监控文件名称,理解tail -f和tail -F的区别。将采集的日志文件保存到Kafka中。(source)输入:tail -F xxx.log(channel)存储:内存(sink)输出:Kafkaconfig样例,a1.source = s1a1.channel = c1a...原创 2020-03-08 15:09:25 · 255 阅读 · 0 评论 -
Zookeeper集群部署及分布式应用系统服务器上下线动态感知
Zookeeper简介Zookeeper是一个分布式协调服务,为用户的分布式应用程序提供协调服务。为别的分布式程序服务本身是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)。通过底层的两个功能提供各种服务,这两个功能分别是:管理(存储、读取)用户程序提交的数据,为用户程序提供数据节点监听服务。Zookeeper集群部署上传安装包rpm -qa | grep lrzszyum insta原创 2020-03-08 15:09:06 · 301 阅读 · 0 评论 -
Spark实战(1)_Spark2.0环境搭建
环境安装软件准备CentOS-7-x86_64-Everything-1611.isospark-2.0.1-bin-hadoop2.7.tgzhadoop-2.7.3.tar.gzscala-2.11.8.tgzjdk-8u91-linux-x64.tar.gz建立Linux虚拟机(全节点)客户机操作系统:CentOS-7-x86_64。网络和主机名设置:原创 2018-01-07 23:39:58 · 699 阅读 · 0 评论 -
Hadoop实战(10)_Sqoop import与抽取框架封装
CDH Hadoop系列目录:Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hadoop实战(8)_CDH添加Hive服务及Hive基础Hadoop实战(9)_Hive进阶及UDF开发Sqoop语法说明Sqoop官方学习文档:http://archive.cloudera.com/cdh5/c原创 2017-11-25 18:35:51 · 1148 阅读 · 0 评论 -
Hadoop实战(9)_Hive进阶及UDF开发
CDH Hadoop系列目录:Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hadoop实战(8)_CDH添加Hive服务及Hive基础Hive目录及配置文件# 配置文件/etc/hive/conf# 根目录/opt/cloudera/parcels/CDH/lib/hive当cm界面里原创 2017-11-16 16:52:43 · 884 阅读 · 0 评论 -
Hadoop实战(8)_CDH添加Hive服务及Hive基础
CDH Hadoop系列目录:Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hive体系结构Hive有2个服务端守护进程:Hiveserver2:支撑JDBC访问,Thrift服务。MetaStore Server:支撑访问元数据库的服务。Hive内核结构Complier:编译器,编译hql语原创 2017-11-14 21:05:26 · 5297 阅读 · 0 评论 -
Hadoop实战(7)_Apache Hadoop安装和配置Hue
系列目录:Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hadoop实战(6)_搭建Apache Hadoop的Eclipse开发环境配置Hue的主要步骤:安装所需的r原创 2017-10-31 23:45:05 · 995 阅读 · 0 评论 -
Hadoop实战(6)_搭建Apache Hadoop的Eclipse开发环境
系列目录:Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hadoop插件的安装配置1、hadoop-eclipse-plugin-2.4.1.jar插件放到Eclipse原创 2017-10-30 11:23:58 · 1020 阅读 · 0 评论 -
Hadoop实战(5)_Hadoop的运维经验
系列目录:Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Cloudera Manager如何卸载卸载CM Serversh /usr/share/cmf/uninstall-cloudera-manager.shr原创 2017-10-29 12:22:09 · 1240 阅读 · 0 评论 -
Hadoop实战(4)_Hadoop的集群管理和资源分配
系列目录:Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式Hadoop实战(3)_虚拟机搭建CDH的全分布模式DataNode数据目录如果有多个挂载点,可以有多个DataNode数据目录。目前服务器硬件,标准小型机配置:32核、64G(128G)、64T(4T*16盘SAS盘)。通常为了提升磁盘吞吐量,每个盘单独挂载。/da原创 2017-10-26 19:59:07 · 5682 阅读 · 0 评论 -
Hadoop实战(3)_虚拟机搭建CDH的全分布模式
系列目录:Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式建立Linux虚拟机(全节点)客户机操作系统:rhel-server-6.5-x86_64。网络连接:NAT模式。Connecet automaticcally:打勾。不会随宿主机网段变化发生IP变化。 hostname Address Netmask原创 2017-10-24 21:06:31 · 1078 阅读 · 0 评论 -
Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式
建立Linux虚拟机(全节点)客户机操作系统:CentOS-6.5-x86_64。网络连接:host-only。Connecet automaticcally:打勾。 hostname Address Netmask Gateway hadoopmaster 192.168.169.100 255.255.255.0 hadoopslave1 192.168.原创 2017-10-23 19:27:31 · 810 阅读 · 0 评论 -
Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境
环境:阿里云服务器 CentOS 7 x86_64安装介质:jdk-7u75-linux-i586.tar.gz,hadoop-2.4.1.tar.gz安装jdktar -zxvf jdk-7u75-linux-i586.tar.gz配置环境变量:# vi .bash_profileJAVA_HOME=/root/training/jdk1.7.0_75export JAVA_HOMEPATH=$原创 2017-10-14 20:56:00 · 2872 阅读 · 0 评论