
hadoop
黑尾土拨鼠
远处的是风景,近处的才是人生
展开
-
hadoop实战(一) vmware下克隆多个ubuntu18.04服务器并开启ssh远程登录
一、 系统安装 因为使用虚拟机搭建集群,同一台电脑上需要启动多个服务器,因此对电脑负载比较大,因此选用server版本的iso,不必要的功能尽量不安装。可以去以下地址下载 https://www.ubuntu.com/download/server 安装完之后需要先更新一下,sudo apt-get update,然后在虚拟机–>管理–>克隆,复制三台。 复制完...原创 2018-11-05 09:30:37 · 1787 阅读 · 4 评论 -
hadoop实战(二)ubuntu18.04搭建hadoop集群
一、 安装JDK 官网下载jdk压缩包并解压, vim /etc/proflie 或者修改vi ~/.bashrc 加上如下:export JAVA_HOME=/home/hadoop/jdk1.8.0_161export HADOOP_HOME=/home/hadoop/hadoop-2.9.1export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_H...原创 2018-11-05 09:59:46 · 1409 阅读 · 3 评论 -
hadoop实战(四) HDFS常用操作指令
一、HDFS的概念和特性 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色重要特性如下: (1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M ...原创 2018-11-15 14:57:00 · 292 阅读 · 0 评论 -
hadoop实战(三) 使用HDFS操作文件
一、hadoop简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager二、hdfs的工作机制(一)、概述 ...原创 2018-11-14 14:44:16 · 903 阅读 · 0 评论 -
hadoop实战(六)HIVE安装
按照前面的步骤搭建好hadoop集群后,只需要在其中一个节点上安装一个即可。步骤如下 1.上传tar包,通过SFTP上传,使用指令:put 路径 2.解压tar -zxvf hive-1.9.0.tar.gz -C /home/hadoop 3.安装mysql数据库(切换到root用户)(ubuntu下使用sudo apt-get install mysql-server ...原创 2018-12-12 14:17:16 · 244 阅读 · 0 评论 -
Spark实战(二)Spark常用算子
一、算子分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算...原创 2018-12-13 17:57:25 · 1599 阅读 · 0 评论 -
hadoop实战(五)MAPREDUCE操作
一、基础概念 Maapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;(一)、为什么使用MAPREDUCE 1、海量数据在单机上处理因为硬件资源限制,无法胜任 2、一旦将单机版程序扩展到集群来分...原创 2018-12-11 10:20:16 · 408 阅读 · 0 评论 -
HBase配置及操作示例
原创 2019-04-21 20:45:32 · 376 阅读 · 0 评论