- 博客(27)
- 收藏
- 关注
原创 Hadoop-Hive 自定义函数实现步骤
创建maven java 工程,导入jar包 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository> </repositories> <depende..
2020-11-20 21:09:52
223
原创 Hadoop-Hive语句一览
Hadoop-Hive语句一览数据库操作数据表操作普通表分区表数据库操作创建数据库create database 数据库名;创建数据库并指定HDFS存储位置create database 数据库名 location 'HDFS路径';删除空数据库drop database 数据库名;删除非空数据库drop database 数据库名 cascade;查看数据库基本信息desc database 数据库名;查看数据库更多详细信息desc database exten
2020-11-20 20:40:57
388
原创 shell编程 算术运算的三种格式
aa=1bb=`expr ${aa} + 2`echo $bbcc=$((${aa}+2))echo $ccdd=$[${aa}+2]echo $dd
2020-11-19 17:34:15
226
原创 Hadoop-MapReduce 自定义inputformat与自定义outputformat
自定义inputformat与自定义outputformat自定义inputformatDriver类InputFormat类map类recordreader类自定义outputformatDriver类map类OutPutfromat类recordwritter类自定义inputformatDriver类import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.ha
2020-11-13 21:28:31
201
原创 Hadoop-MapReduce reduce端join与map端join算法实现步骤
reduce端join与map端join算法实现reduce端join算法实现JavaBean类Map类Reduce类Driver类map端join算法实现Map类Driver类reduce端join算法实现JavaBean类import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public cl
2020-11-04 20:31:39
165
原创 Hadoop-MapReduce基本代码实现步骤
Hadoop-MapReduce基本代码一览JavaBean类Map类Partitions类Reduce类Driver类JavaBean类import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class PhoneBean implements Writable { //设置四个需要存储读取的数
2020-11-04 20:10:01
305
原创 hadoop-HA集群搭建步骤及配置文件的修改
**注意:要先安装配置好zooekeeper集群,详情请点链接: link. **hadoop-HA集群搭建步骤修改core-site.xml修改hdfs-site.xml修改core-site.xml<configuration><!-- 集群名称在这里指定!该值来自于hdfs-site.xml中的配置 --><property><name>fs.defaultFS</name><value>hdfs://cluster
2020-10-26 16:00:11
330
原创 大数据系列之Zookeeper知识部分讲解
大数据系列之Zookeeper知识部分讲解ZooKeeper概述ZooKeeper特性ZooKeeper集群角色ZooKeeper shell客户端连接创建节点读取节点更新节点删除节点其他命令ZooKeeper数据模型节点类型节点属性ZooKeeper Watcher(监听机制)Watch机制特点通知状态和事件类型Shell 客户端设置watcherZooKeeper Java APIZooKeeper选举机制概念全新集群选举非全新集群选举ZooKeeper概述Zookeeper是一个分布式协调服务的开
2020-10-20 18:09:46
159
原创 大数据系列之Zookeeper集群搭建
安装前需要安装好jdk 检测集群时间是否同步 检测防火墙是否关闭 检测主机 ip映射有没有配置下载安装包、解压 tar -zxvf zookeeper-3.4.5.tar.gz修改环境变量(注意:3台zookeeper都需要修改) vim /etc/profile.d/zookeeper.sh export ZOOKEEPER_HOME=zookeeper安装目录的绝对路径 export PATH=$PATH:$ZOOKEEPER_HOME/bin source /et..
2020-10-19 17:57:42
193
1
原创 hadoop核心组件——HDFS系列讲解之HDFS其他功能介绍
hadoop核心组件——HDFS系列讲解之HDFS其他功能介绍多个集群之间的数据拷贝hdfs快照snapShot管理HDFS回收站回收站配置两个参数启用回收站查看回收站通过javaAPI删除的数据,不会进入回收站,需要调用moveToTrash()才会进入回收站恢复回收站数据清空回收站多个集群之间的数据拷贝cd /export/servers/Hadoop-2.6.0-cdh5.14.0/bin/Hadoop distcp hdfs://node01:8020/jdk-8u141-linux-x64.
2020-10-18 16:48:05
455
原创 hadoop核心组件——HDFS系列讲解之HDFS-Web界面介绍
登录HDFSWeb浏览器打开浏览器输入 http://node01:50070 (node01是NameNode所在的节点,或IP)Overview:集群概述Datanode::数据节点datanode-volume-failures: 数据节点卷故障snapshot: 快照startup-progress: 启动进度Overview:集群概述Datanode::数据节点datanode-volume-failures: 数据节点卷故障snapshot: 快照startup-p
2020-10-18 16:39:02
2345
原创 hadoop核心组件——HDFS系列讲解之HDFS的javaAPI操作
hadoop核心组件——HDFS系列讲解之HDFS的javaAPI操作获取FileSystem的几种方式递归遍历文件系统当中的所有文件下载文件到本地hdfs上创建文件夹hdfs文件上传HDFS权限问题以及伪造用户HDFS的小文件合并获取FileSystem的几种方式第一种方式获取FileSystem@Testpublic void getFileSystem() throws URISyntaxException, IOException { Configuration configurati
2020-10-18 16:28:31
371
原创 hadoop核心组件——HDFS系列讲解之HDFS新增节点与删除节点
HDFS新增节点与删除节点新增节点新增节点创捷新的虚拟主机修改新节点主机名 vi /etc/sysconfig/network新节点永久关闭防火墙 /etc/init.d/iptables stop chkconfig iptables off新节点关闭selinux vi /etc/selinux/config SELINUX=disabled修改所有节点的 /etc/hosts文件。添加新节点的ip和主机名主节点到
2020-10-18 16:01:58
229
原创 hadoop核心组件——HDFS系列讲解之Fsimage,Edits详解
hadoop核心组件——HDFS系列讲解之Fsimage,Edits详解NameNode元数据解析元数据信息目录的配置FSimage文件当中的文件信息查看edits当中的文件信息查看secondarynameNode如何辅助管理FSImage与Edits文件namenode元数据信息多目录配置NameNode元数据解析(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载edits和fsimage文件到内存。(2)客户端对元数据进行增删改的请求。(
2020-10-14 21:37:15
988
1
原创 hadoop核心组件——HDFS系列讲解之HDFS的高级使用命令
hadoop核心组件——HDFS系列讲解之HDFS的高级使用命令HDFS高级使用命令数量限额空间大小限额查看hdfs文件限额数量HDFS的安全模式hdfs的文件权限验证HDFS高级使用命令数量限额hdfs dfs -mkdir -p /user/root/lisi #创建hdfs文件夹hdfs dfsadmin -setQuota 2 lisi # 给该文件夹下面设置最多上传两个文件,上传文件,发现只能上传一个文件hdfs dfsadmin -clrQuota /user/roo
2020-10-12 18:15:18
212
原创 hadoop核心组件——HDFS系列讲解之HDFS的shell命令操作
hadoop核心组件——HDFS系列讲解之HDFS的shell命令操作基本语法常用命令HDFS的特性基本语法老版本:hadoop fs 具体命令新版本:hdfs dfs 具体命令常用命令(1)-help:输出这个命令参数bin/hdfs dfs -help rm(2)-ls: 显示目录信息hdfs dfs -ls /(3)-mkdir:在hdfs上创建目录hdfs dfs -mkdir -p /aaa/bbb/cc/dd(4)-moveFromLocal从本地剪切粘
2020-10-12 18:04:39
1056
原创 hadoop核心组件——HDFS系列讲解之HDFS文件读写流程
hadoop核心组件——HDFS系列讲解之HDFS文件读写流程文件写入过程文件读取过程数据完整性掉线时限参数设置DataNode的目录结构一次写入,多次读出文件写入过程详细步骤解析:1、 client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;2、 client请求第一个block该传输到哪些DataNode服务器上;3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的Da
2020-10-12 17:41:08
416
原创 hadoop核心组件——HDFS系列讲解之HDFS基本介绍
hadoop核心组件——HDFS系列讲解之HDFS 基本介绍HDFS 基本介绍HDFS分块存储抽象成数据块的好处块缓存HDFS副本机制名字空间(NameSpace)Namenode 功能Datanode功能机架感知HDFS 基本介绍HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统
2020-10-12 17:21:37
933
原创 Hadoop CDH 分布式环境搭建
Hadoop CDH 分布式环境搭建1.上传压缩包并解压2.查看Hadoop支持的压缩方式以及本地库3.修改配置文件修改core-site.xml修改hdfs-site.xml修改Hadoop-env.sh(如果配置了JDK1.8就不用修改)修改mapred-site.xml修改yarn-site.xml修改slaves文件4.创建文件存放目录5.安装包的分发6.配置Hadoop的环境变量7.集群启动单个节点逐一启动脚本一键启动HDFS、Yarn脚本一键启动所有8.浏览器查看启动页面1.上传压缩包并解压
2020-10-06 20:59:37
1517
原创 大数据基础知识介绍
大数据介绍大数据介绍什么是大数据大数据特点大数据能做什么大数据项目流程介绍大数据介绍什么是大数据大数据特点大数据能做什么大数据项目流程介绍数据生产数据采集数据存储需求分析数据预处理数据计算结果数据存储结果数据展现...
2020-10-05 14:56:09
2312
原创 linux 实操部分
linux 实操部分挂载新的硬盘1.了解linux系统分区的原理2.查看系统分区挂载情况3.虚拟机 增加 硬盘4.分区5.格式化6.挂载7.设置重启不失效挂载 持有系统镜像 光驱rpm 软件包管理器rpm包 的 查询命令rpm包 的 卸载rpm包 的 安装yum挂载新的硬盘1.了解linux系统分区的原理2.查看系统分区挂载情况3.虚拟机 增加 硬盘4.分区5.格式化6.挂载7.设置重启不失效挂载 持有系统镜像 光驱rpm 软件包管理器rpm包 的 查询命令
2020-09-30 08:24:47
2211
原创 shell编程基础讲解
shell编程shell 解释器执行shell脚本执行方式一执行方式二执行方式三shell 解释器执行shell脚本执行方式一执行方式二执行方式三
2020-09-29 15:57:43
2225
原创 linux 管道相关命令部分讲解
Cut按照字符提取 head -2 1.txt | cut -c 5指定分隔符 head -2 1.txt | cut -d ‘:’ -f 1,2Sort文本排序 sort 文件名文本排序反转 sort -r 文件名文本排序去重 sort -u 文件名数值按大小排序 sort -n 文件名指定分隔符、指定排序列 sort -t ‘分隔符’ -k2nr 文件名Wc查看文件基本信息 wc 文件名查看文件行数 wc – l
2020-09-17 18:03:07
2199
原创 linux 常用命令部分讲解02
打开文件并且定位行vim 文件名 +行数VI编辑器三种工作模式命令模式末行模式编辑模式VI编辑器命令模式ZZ 保存并退出h 向左移动光标j 向下移动光标k 向上移动光标l 向右移动光标w 向后移动一个单词b 向前移动一个单词0 光标移动到行首^ 光标移动到行首, 第一个不是空白字符的位置$ 光标移动到行尾gg 光标移动到文件顶部的行首G 光标移动到文件末尾的行首数字gg 数字G 移动到对应的数字行数Ctrl + b 向上翻页Ctrl + f 向下翻页H 光
2020-09-16 16:47:02
1911
原创 linux 常用命令部分讲解01
创建文件夹的命令mkdir 目录名mkdir -p 目录名1/目录名2/目录名3删除文件夹的命令rm -rf 目录名1/目录名2/目录名3修改(移动)文件夹的命令mv 旧文件夹名(旧路径) 新文件夹名(新路径)查询文件夹的命令ls 文件夹名 (不包含权限、日期等信息)ll 文件夹名 (包含权限、日期等信息)目录切换命令cd 目标路径cd - (在最近的两次目录之间切换)软连接ln -s 目标文件绝对路径 快捷方式路径查看当前所在路径pwd复制文件夹cp -a 原文件夹 目
2020-09-15 21:03:16
2177
原创 VMware专业版虚拟机CentOS 6系统设置动态和静态IP步骤
输入命令将ONBOOT=no修改为yes输入命令,重启网卡4.输入命令,查看设置动态IP是否成功
2020-09-15 08:38:07
2387
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人