自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 Hadoop-Hive 自定义函数实现步骤

创建maven java 工程,导入jar包 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository> </repositories> <depende..

2020-11-20 21:09:52 223

原创 Hadoop-Hive语句一览

Hadoop-Hive语句一览数据库操作数据表操作普通表分区表数据库操作创建数据库create database 数据库名;创建数据库并指定HDFS存储位置create database 数据库名 location 'HDFS路径';删除空数据库drop database 数据库名;删除非空数据库drop database 数据库名 cascade;查看数据库基本信息desc database 数据库名;查看数据库更多详细信息desc database exten

2020-11-20 20:40:57 388

原创 shell编程 算术运算的三种格式

aa=1bb=`expr ${aa} + 2`echo $bbcc=$((${aa}+2))echo $ccdd=$[${aa}+2]echo $dd

2020-11-19 17:34:15 226

原创 Hadoop-MapReduce 自定义inputformat与自定义outputformat

自定义inputformat与自定义outputformat自定义inputformatDriver类InputFormat类map类recordreader类自定义outputformatDriver类map类OutPutfromat类recordwritter类自定义inputformatDriver类import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.ha

2020-11-13 21:28:31 201

原创 Hadoop-MapReduce reduce端join与map端join算法实现步骤

reduce端join与map端join算法实现reduce端join算法实现JavaBean类Map类Reduce类Driver类map端join算法实现Map类Driver类reduce端join算法实现JavaBean类import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public cl

2020-11-04 20:31:39 165

原创 Hadoop-MapReduce基本代码实现步骤

Hadoop-MapReduce基本代码一览JavaBean类Map类Partitions类Reduce类Driver类JavaBean类import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class PhoneBean implements Writable { //设置四个需要存储读取的数

2020-11-04 20:10:01 305

原创 hadoop-HA集群搭建步骤及配置文件的修改

**注意:要先安装配置好zooekeeper集群,详情请点链接: link. **hadoop-HA集群搭建步骤修改core-site.xml修改hdfs-site.xml修改core-site.xml<configuration><!-- 集群名称在这里指定!该值来自于hdfs-site.xml中的配置 --><property><name>fs.defaultFS</name><value>hdfs://cluster

2020-10-26 16:00:11 330

原创 大数据系列之Zookeeper知识部分讲解

大数据系列之Zookeeper知识部分讲解ZooKeeper概述ZooKeeper特性ZooKeeper集群角色ZooKeeper shell客户端连接创建节点读取节点更新节点删除节点其他命令ZooKeeper数据模型节点类型节点属性ZooKeeper Watcher(监听机制)Watch机制特点通知状态和事件类型Shell 客户端设置watcherZooKeeper Java APIZooKeeper选举机制概念全新集群选举非全新集群选举ZooKeeper概述Zookeeper是一个分布式协调服务的开

2020-10-20 18:09:46 159

原创 大数据系列之Zookeeper集群搭建

安装前需要安装好jdk 检测集群时间是否同步 检测防火墙是否关闭 检测主机 ip映射有没有配置下载安装包、解压 tar -zxvf zookeeper-3.4.5.tar.gz修改环境变量(注意:3台zookeeper都需要修改) vim /etc/profile.d/zookeeper.sh export ZOOKEEPER_HOME=zookeeper安装目录的绝对路径 export PATH=$PATH:$ZOOKEEPER_HOME/bin source /et..

2020-10-19 17:57:42 193 1

原创 hadoop核心组件——HDFS系列讲解之HDFS其他功能介绍

hadoop核心组件——HDFS系列讲解之HDFS其他功能介绍多个集群之间的数据拷贝hdfs快照snapShot管理HDFS回收站回收站配置两个参数启用回收站查看回收站通过javaAPI删除的数据,不会进入回收站,需要调用moveToTrash()才会进入回收站恢复回收站数据清空回收站多个集群之间的数据拷贝cd /export/servers/Hadoop-2.6.0-cdh5.14.0/bin/Hadoop distcp hdfs://node01:8020/jdk-8u141-linux-x64.

2020-10-18 16:48:05 455

原创 hadoop核心组件——HDFS系列讲解之HDFS-Web界面介绍

登录HDFSWeb浏览器打开浏览器输入 http://node01:50070 (node01是NameNode所在的节点,或IP)Overview:集群概述Datanode::数据节点datanode-volume-failures: 数据节点卷故障snapshot: 快照startup-progress: 启动进度Overview:集群概述Datanode::数据节点datanode-volume-failures: 数据节点卷故障snapshot: 快照startup-p

2020-10-18 16:39:02 2345

原创 hadoop核心组件——HDFS系列讲解之HDFS的javaAPI操作

hadoop核心组件——HDFS系列讲解之HDFS的javaAPI操作获取FileSystem的几种方式递归遍历文件系统当中的所有文件下载文件到本地hdfs上创建文件夹hdfs文件上传HDFS权限问题以及伪造用户HDFS的小文件合并获取FileSystem的几种方式第一种方式获取FileSystem@Testpublic void getFileSystem() throws URISyntaxException, IOException { Configuration configurati

2020-10-18 16:28:31 371

原创 hadoop核心组件——HDFS系列讲解之HDFS新增节点与删除节点

HDFS新增节点与删除节点新增节点新增节点创捷新的虚拟主机修改新节点主机名 vi /etc/sysconfig/network新节点永久关闭防火墙 /etc/init.d/iptables stop chkconfig iptables off新节点关闭selinux vi /etc/selinux/config SELINUX=disabled修改所有节点的 /etc/hosts文件。添加新节点的ip和主机名主节点到

2020-10-18 16:01:58 229

原创 hadoop核心组件——HDFS系列讲解之Fsimage,Edits详解

hadoop核心组件——HDFS系列讲解之Fsimage,Edits详解NameNode元数据解析元数据信息目录的配置FSimage文件当中的文件信息查看edits当中的文件信息查看secondarynameNode如何辅助管理FSImage与Edits文件namenode元数据信息多目录配置NameNode元数据解析(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载edits和fsimage文件到内存。(2)客户端对元数据进行增删改的请求。(

2020-10-14 21:37:15 988 1

原创 hadoop核心组件——HDFS系列讲解之HDFS的高级使用命令

hadoop核心组件——HDFS系列讲解之HDFS的高级使用命令HDFS高级使用命令数量限额空间大小限额查看hdfs文件限额数量HDFS的安全模式hdfs的文件权限验证HDFS高级使用命令数量限额hdfs dfs -mkdir -p /user/root/lisi #创建hdfs文件夹hdfs dfsadmin -setQuota 2 lisi # 给该文件夹下面设置最多上传两个文件,上传文件,发现只能上传一个文件hdfs dfsadmin -clrQuota /user/roo

2020-10-12 18:15:18 212

原创 hadoop核心组件——HDFS系列讲解之HDFS的shell命令操作

hadoop核心组件——HDFS系列讲解之HDFS的shell命令操作基本语法常用命令HDFS的特性基本语法老版本:hadoop fs 具体命令新版本:hdfs dfs 具体命令常用命令(1)-help:输出这个命令参数bin/hdfs dfs -help rm(2)-ls: 显示目录信息hdfs dfs -ls /(3)-mkdir:在hdfs上创建目录hdfs dfs -mkdir -p /aaa/bbb/cc/dd(4)-moveFromLocal从本地剪切粘

2020-10-12 18:04:39 1056

原创 hadoop核心组件——HDFS系列讲解之HDFS文件读写流程

hadoop核心组件——HDFS系列讲解之HDFS文件读写流程文件写入过程文件读取过程数据完整性掉线时限参数设置DataNode的目录结构一次写入,多次读出文件写入过程详细步骤解析:1、 client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;2、 client请求第一个block该传输到哪些DataNode服务器上;3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的Da

2020-10-12 17:41:08 416

原创 hadoop核心组件——HDFS系列讲解之HDFS基本介绍

hadoop核心组件——HDFS系列讲解之HDFS 基本介绍HDFS 基本介绍HDFS分块存储抽象成数据块的好处块缓存HDFS副本机制名字空间(NameSpace)Namenode 功能Datanode功能机架感知HDFS 基本介绍HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统

2020-10-12 17:21:37 933

原创 Hadoop CDH 分布式环境搭建

Hadoop CDH 分布式环境搭建1.上传压缩包并解压2.查看Hadoop支持的压缩方式以及本地库3.修改配置文件修改core-site.xml修改hdfs-site.xml修改Hadoop-env.sh(如果配置了JDK1.8就不用修改)修改mapred-site.xml修改yarn-site.xml修改slaves文件4.创建文件存放目录5.安装包的分发6.配置Hadoop的环境变量7.集群启动单个节点逐一启动脚本一键启动HDFS、Yarn脚本一键启动所有8.浏览器查看启动页面1.上传压缩包并解压

2020-10-06 20:59:37 1517

原创 大数据基础知识介绍

大数据介绍大数据介绍什么是大数据大数据特点大数据能做什么大数据项目流程介绍大数据介绍什么是大数据大数据特点大数据能做什么大数据项目流程介绍数据生产数据采集数据存储需求分析数据预处理数据计算结果数据存储结果数据展现...

2020-10-05 14:56:09 2312

原创 linux 实操部分

linux 实操部分挂载新的硬盘1.了解linux系统分区的原理2.查看系统分区挂载情况3.虚拟机 增加 硬盘4.分区5.格式化6.挂载7.设置重启不失效挂载 持有系统镜像 光驱rpm 软件包管理器rpm包 的 查询命令rpm包 的 卸载rpm包 的 安装yum挂载新的硬盘1.了解linux系统分区的原理2.查看系统分区挂载情况3.虚拟机 增加 硬盘4.分区5.格式化6.挂载7.设置重启不失效挂载 持有系统镜像 光驱rpm 软件包管理器rpm包 的 查询命令

2020-09-30 08:24:47 2211

原创 shell编程基础讲解

shell编程shell 解释器执行shell脚本执行方式一执行方式二执行方式三shell 解释器执行shell脚本执行方式一执行方式二执行方式三

2020-09-29 15:57:43 2225

原创 linux 管道相关命令部分讲解

Cut按照字符提取 head -2 1.txt | cut -c 5指定分隔符 head -2 1.txt | cut -d ‘:’ -f 1,2Sort文本排序 sort 文件名文本排序反转 sort -r 文件名文本排序去重 sort -u 文件名数值按大小排序 sort -n 文件名指定分隔符、指定排序列 sort -t ‘分隔符’ -k2nr 文件名Wc查看文件基本信息 wc 文件名查看文件行数 wc – l

2020-09-17 18:03:07 2199

原创 linux 常用命令部分讲解02

打开文件并且定位行vim 文件名 +行数VI编辑器三种工作模式命令模式末行模式编辑模式VI编辑器命令模式ZZ 保存并退出h 向左移动光标j 向下移动光标k 向上移动光标l 向右移动光标w 向后移动一个单词b 向前移动一个单词0 光标移动到行首^ 光标移动到行首, 第一个不是空白字符的位置$ 光标移动到行尾gg 光标移动到文件顶部的行首G 光标移动到文件末尾的行首数字gg 数字G 移动到对应的数字行数Ctrl + b 向上翻页Ctrl + f 向下翻页H 光

2020-09-16 16:47:02 1911

原创 linux 常用命令部分讲解01

创建文件夹的命令mkdir 目录名mkdir -p 目录名1/目录名2/目录名3删除文件夹的命令rm -rf 目录名1/目录名2/目录名3修改(移动)文件夹的命令mv 旧文件夹名(旧路径) 新文件夹名(新路径)查询文件夹的命令ls 文件夹名 (不包含权限、日期等信息)ll 文件夹名 (包含权限、日期等信息)目录切换命令cd 目标路径cd - (在最近的两次目录之间切换)软连接ln -s 目标文件绝对路径 快捷方式路径查看当前所在路径pwd复制文件夹cp -a 原文件夹 目

2020-09-15 21:03:16 2177

原创 VMware专业版虚拟机CentOS 6系统设置动态和静态IP步骤

输入命令将ONBOOT=no修改为yes输入命令,重启网卡4.输入命令,查看设置动态IP是否成功

2020-09-15 08:38:07 2387

原创 使用VMware安装创建桌面版虚拟机及CentOS 6系统安装步骤

查看电脑是否开启虚拟化安装部署创建虚拟机4.开启虚拟机

2020-09-14 15:25:04 2330

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除