- 博客(38)
- 收藏
- 关注
原创 windows搭建HDFS客户端
1、去Apache官网下载hadoop解压包(官网)2、找到你需要的安装包下载3、下载后解压,配置环境变量3、下载尽量对应版本的 hadoop.dll 和 winutils.exe(下载地址)4、然后将下载后的 winutils.exe 放入解压后的 %HADOOP_HOME%\bin 目录下,将hadoop.dll 放入C:\Windows\System32 目录下5、新建Maven项目测试 <properties> <maven..
2021-02-14 16:11:12
2004
原创 单节点部署三台zookeeper和三台kafka
一台机器部署三台zookeeper:同理kafka也可以这样部署解压创建三个软连接,分别为 zookeeper,zookeeper1,zookeeper2[hadoop@hadoop001 app]$ lllrwxrwxrwx. 1 hadoop hadoop 25 Sep 1 03:37 zookeeper -> zookeeper-3.4.5-cdh5.7.0/drwxr...
2019-10-30 18:30:00
890
原创 spark如何读取hive里面的数据
首先,将hive-site.xml copy到spark/conf目录下spark shell和spark sql:指定mysql驱动包位置,--jars只会在executor端读取到,driver-class-path可以在driver端读取到spark-shell/spark-sql --master local[2] --jars ~/lib/mysql-connector-java-...
2019-10-23 00:13:09
1098
原创 部署cdh时web页面激活夯住解决方案
web页面激活的时候夯住了,可以使用以下方案进行api激活第一步:查看版本[root@hadoop001 lib]# curl -u admin:admin -XGET http://hadoop001:7180/api/versionv19第二步:查看集群名称,取name字段的值[root@hadoop001 lib]# curl -u admin:admin -XGET http...
2019-10-19 22:20:22
423
1
原创 云主机tar包离线部署cdh
环境: 阿里云三台:centos7.2 hadoop001 hadoop002 hadoop003上传所需要的安装包到hadoop001 [root@hadoop001 ~]# ll total 3605076-rw-r--r-- 1 root root 2127506677 Oct 19 00:00 CDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel-rw-r...
2019-10-19 22:18:40
553
转载 Maven打jar包的三种方式
不包含依赖jar包该方法打包的jar,不包含依赖的jar包,也没有指定入口类。<build> <plugins> <plugin> <!-- 指定项目编译时的java版本和编码方式 --> <groupId>org.apache.maven.plugins<...
2019-10-11 22:28:27
330
原创 hive自定义函数
hive自定义函数:UDF :User-Defined Function (用户自定义函数)一进一出UDAF : User-Defined Aggregation Function(用户自定义聚合函数) 多进一出UDTF : User-Defined Table-Generating Function(用户自定义表生成函数)一进多出这里重点说一下自定义UDF的使用:因为在使用hive清洗...
2019-10-11 21:47:18
157
原创 spark编译
编译需要依赖:1.scala 下载安装2.maven 下载安装,修改maven的仓库地址3.git yum安装如果使用maven编译的话最后不会生成tar.gz包,所以我们使用以下方式:编译命令:(--name参数是写上你的hadoop的版本,-Dhadoop.version写上你的hadoop版本,此方式默认的scala版本是2.11.8)./dev/make-distribu...
2019-10-11 20:33:09
203
原创 还原hadoop离线项目实战
项目架构:idea创建sb项目:至此,sb项目构建完毕,找到程序入口,测试成功!搭建nginx环境:1,安装c++依赖cd /etc/yum.repos.drm -rf *上传 CentOS6-Base-163.repo 文件---->/etc/yum.repos.dyum clean allyum makecacheyum -y install gcc pcre...
2019-10-05 16:23:23
174
原创 本地idea提交到yarn上运行错误解析
1.Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=yoohhwz, access=EXECUTE, inode="/tmp/hadoop-yarn":hadoop:supergroup:drwx------解决方案:在main方法首行加上...
2019-09-04 10:15:01
1142
原创 javaAPI操作HDFS进行文件流传输
##直接粘代码public class HDFSTest {public static final String HDFS_PATH="hdfs://hadoop001:9000";public static final String HADOOP_NAME="hadoop";Configuration configuration=null;FileSystem fs=null;@B...
2019-08-25 23:30:53
1723
原创 记录一次ssh远程别的机器找不到java环境的问题
环境:hadoop001hadoop002hadoop003三台机器,在hadoop001机器上远程启动hadoop002机器的zookeeper时候无法找到java环境,不能远程启动hadoop002机器上的zookeeper[hadoop@hadoop001 ~]$ ssh hadoop002 ${ZOOKEEPER_HOME}/bin/zkServer.sh startJMX e...
2019-08-25 08:29:36
878
原创 Shell中awk和sed简单用法
awk:[hadoop@hadoop001 script]$ cat awk.log张三,李四,王五北京,上海,深圳‘18’,20,161.取出第一列[hadoop@hadoop001 script]$ cat awk.log | awk -F ‘,’ ‘{print $1}’张三北京‘18’2.取出第一列,第三列[hadoop@hadoop001 script]$ cat ...
2019-08-24 17:11:43
311
原创 Shell相关
shell的两种执行方式:1.使用./ 脚本名执行chmod u+x shell脚本名–给当前用户一个可执行权限,如果别的用户需要执行权限,可以给其它用户可执行的权限,然后使用 ./shell脚本名 执行该脚本2.sh shell脚本名shell的debug模式:1.sh -x shelll脚本名2.在 脚本中 #!/bin/bash -x ,然后使用./shell脚本名执行shel...
2019-08-24 14:49:25
153
原创 阿里云主机Hadoop-HA集群搭建步骤(详细)
环境:阿里云三台:centos7.2hadoop-2.6.0-cdh5.15.1.tar.gzjdk-8u45-linux-x64.gzzookeeper-3.4.6.tar.gz先在三台机器上分别创建一个hadoop用户,并切换至hadoop用户[root@hadoop001 ~]# useradd hadoop[root@hadoop002 ~]# useradd hadoop...
2019-08-21 02:30:03
896
原创 Hive小Demo
需求分析:求各个区域下最受欢迎的产品的TOP 3假设我们mysql上存放了两表,一张city_info城市信息表,一张product_info产品信息表city_info:city_id 城市idcity_name 城市名字area 区域信息(华东、华北、华南、华中这些)product_info:product_id 产品idproduct_name 产品名称extend_inf...
2019-07-27 23:29:11
649
原创 Sqoop
Sqoop:一个hdfs(或者说hive,hbase)和关系型数据库(本文以mysql为例)交互的工具,可以将hdfs上面的数据导出到关系型数据库(如mysql),也可以将关系型数据库(mysql)导入到hdfs上,导入导出都是针对hdfs来说的。Sqoop搭建:1.下载与cdh对应版本的sqoop版本,然后解压,改名或者创建软连接[hadoop@hadoop001 software]$ ...
2019-07-24 00:03:31
179
原创 Hive分区分桶详解
一、分区概念:分区最主要的目的:实现快速查询为什么要创建分区:单个表数据量越来越大的时候,在Hive select查询中一般会扫描整个表内容(暴力扫描),会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。(1)、Hive的分区和mysql的分区差异:mysql分区是将表中的字段拿来直接作为分区字段,而hive的分区则是分区字段不在...
2019-07-23 20:56:06
310
原创 hive的beeline连接方式
*##启动后台启动hs2服务,将输出日志输出到指定目录,然后使用beeline方式连接到hive上。*[hadoop@hadoop001 ~]$ nohup sh app/hive/bin/hiveserver2 >> ~/data/tmp/hs2.log &[1] 34483*##此处hs2的默认端口号为10000,可修改,hadoop001为主机名,hwzhdb为你...
2019-07-22 21:46:29
6476
原创 hive数据类型
hive数据类型分为基本数据类型和复杂数据类型(参考官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types)基本数据类型:常用的int,bigint,string,float,double,boolean,date,timestamp不做过多解释了复杂数据类型:1.array<dataTyle...
2019-07-21 23:20:24
163
原创 Hive解析json格式数据
本文将介绍两个使用hive解析json的小demo1.[hadoop@hadoop001 jsonData]$ more rating.json {"movie":"1193","rate":"5","time":"978300760","userid":"1"}{"movie":"661","rate":"3","time":"978302109","userid":"1"}{"movi...
2019-07-21 18:52:50
587
原创 Hive语法相关
一些常用的hive相关的语法,详细请查看官网:https://cwiki.apache.org/confluence/display/HiveDDLcreate创建数据库:create database [if not exists] 数据库名;创建表:create table [external] 表名(column1 type1,column2 type2,…)row fo...
2019-07-21 16:33:19
200
原创 Hive搭建步骤
1.下载与你hadoop对应的hive tar安装包,在这里我的hadoop是hadoop-2.6.0-cdh5.7.0的版本,所以需要去下载cdh同样为5.7.0的hive-1.1.0-cdh5.7.0.tar.gz包,然后上传至linux系统上的software目录下。[root@hadoop001 ~]# su - hadoop[hadoop@hadoop001 ~]$ rz[had...
2019-07-18 22:52:37
426
原创 Hive相关概念
Hive:基于Hadoop之上的一个离线数据仓库,使用hdfs作为底层存储,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive主要分为以下几个部分:1. 用户接口用户接口主要有三个:CLI,Client 和 WebUI(HUE/Zeppelin)。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个...
2019-07-15 23:29:28
290
原创 常见错误集(持续更新)
1.多次执行hdfs namenode -format命令然后启动start-dfs.sh 然后jps后发现datanode节点(或者其它节点,比如namenode)没有启动,然后去logs目录下查看datanode的日志文件hadoop-hadoop–datanode(或者其它比如namenode).log发现报如下错: 2019-07-03 12:39:54,640 WARNorg.ap...
2019-07-15 09:20:13
789
原创 MR的shuffle相关总结
mapreduce流程总结:1.通过InputFormat读取切片的数据,以<k1,V1>(K表示偏移量,V表示一行数据)的形式进入map()方法进行逻辑处理,处理之后的数据<K2,V2>(K2为标识符,V2为自定义的值)会通过partition分区进入到map shuffle阶段2.在进入到map shuffle阶段时会先进入环形内存缓冲区,默认100M,当缓冲区...
2019-07-14 23:46:38
332
原创 Yarn的概念以及资源分配
资源:一般来说资源分为CPU和内存 内存是一种“决定生死”的资源CPU是一种“影响快慢”的资源Yarn是做什么的? 是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,可为mr,spark,storm等提供资源分配与调度。yarn的模块划分:ResourceManager1)处理客户端请求2)启动/监控ApplicationMaster3)监控NodeManage...
2019-07-14 23:25:00
1311
原创 Hadoop1.0和2.0的主要区别
Hadoop 1.0指的是版本为Apache Hadoop0.20.x、1.x或者CDH3系列的Hadoop,组件主要由HDFS和MapReduce两个系统组成,HDFS是一个分布式文件存储系统,MapReduce是一个离线处理框架,分为三部分,运行时环境为JobTracker和TaskTracker,编程模型为Map映射和Reduce规约,数据处理引擎为MapTask和ReduceTask,H...
2019-07-13 18:28:04
4476
原创 HDFS相关基础概念
HDFS:hadoop实现的一个分布式文件存储系统,是主/从(Mater/Slave)体系结构,是基于流 数据模式访问和处理超大文件的需求而开发的。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了,是主从架构,分为namenode,datanode,secondaryNamenode。Namenode:是master1、管理 HDFS 的名命空间(a.文件名称b....
2019-07-08 22:37:02
244
原创 CDH集群伪分布式搭建步骤
1.安装虚拟机,配置ip(参考链接:点击这里)2.更改主机名,关闭防火墙,设置ip映射[root@hadoop001 ~]# vi /etc/sysconfig/network //更改主机名[root@hadoop001 ~]# service iptables stop //关闭防火墙[root@hadoop001 ~]# chkconfig iptables...
2019-07-03 00:41:00
1085
原创 Linux环境下部署Mysql数据库
一篇比较详细的linux环境MySQL的安装步骤1.mysql安装目录在/usr/local下,然后通过rz上传我们的mysql安装包2.使用ps -ef | grep mysqld 命令检查是否已经存在Mysql进程3.使用tar -zxvf mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz 解压我们的MySQL安装包到当前/usr/loc...
2019-06-25 22:43:43
12792
原创 linux环境下jdk的安装
1.jdk安装目录必须建在 /usr/java下,不然在cdh集群搭建时候会有问题2.执行命令时候是从$PATH中从前往后执行的,所以需要将你的java环境变量放在$PATH的前边,这样系统才会采用你的jdk3.配置完环境变量后记得刷新 source /etc/profile 或者 . /etc/profile4.安装完成后你会发现你的jdk目录所属用户,所属组有问题需要我们修正开...
2019-06-22 13:08:54
269
原创 linux基础命令总结(持续更新)
命令可能不是那么的全,但是却是很实用的一些....查看当前系统主机名:hostname查看ip:ifconfig命令补全:按下tab键显示当前绝对路径:pwd查看hdfs数据块健康状态:hdfs fsck /查看进程:ps -ef | grep xxx eg:ps -ef | grep hadoop查看端口号(必须使用拥有sudo权限的用户或者直接root用户):...
2019-06-16 19:01:23
285
原创 Linux虚拟机Nat模式超详细搭建攻略
1.下载VMware Workstation软件,然后傻瓜式一直点击下一步即可完成安装,我这里用的是VMware102.打开VMware软件,点击文件--->新建虚拟机3. 选择自定义安装,点击下一步4.这一步不做任何操作,点击下一步5.选择稍后安装操作系统,点击下一步6.选择 linux 和CentOS64位,点击下一步7.给你的虚拟机起个名字,我这里就...
2019-06-15 12:56:27
1032
原创 关于distinct去重后仍然有重复数据
记录一次工作中出现的小问题,在对一次用户地址信息原始数据拆分时候出现了dictinct地址字段后,结果仍然有重复数据出现,最终发现是因为中文全角半角的问题---------------------------------华丽的分割线----------------------------------不上图了,直接两个函数to_single_byte()转换成半角to_multi_byt...
2019-05-20 19:08:54
4241
原创 oracle解锁scott用户
首先,默认oracle对scott用户是枷锁状态的,所以需要我们去解锁使用1.打开cmd 输入sqlplus输入用户名:system输入口令:安装时候你设置的密码2.输入:alter user scott account unlock;一定要注意 ';'3.成功解锁,去plsql上进行登陆,密码为你安装时候设置的登陆成功!新手博客,请手下留情...
2019-05-06 17:09:21
14830
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人