- 博客(25)
- 资源 (1)
- 收藏
- 关注
原创 Spark3.0新特性分析
特性概览官方release note:https://spark.apache.org/releases/spark-release-3-0-0.htmlhttps://spark.apache.org/docs/3.0.0/core-migration-guide.htmlhttp://spark.apache.org/releases/spark-release-3-0-2.html1.Adaptive Query Execution - [SPARK-31412] 2.Dyna
2021-06-28 17:11:45
1637
原创 大数据ETL工具Sqoop详解
Sqoop是用来做什么的Sqoop官网是这样介绍:Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structureddatastores such as relational databases.就是说Sqoop是一款用来在Hadoo...
2018-09-30 10:42:57
12863
原创 hive的UDF开发和永久加载方式
编写自定义函数1、新建一个java项目,创建lib文件夹2、导入依赖jar包:hive.exec-*.jar3、创建一个类,继承UDF类,重写evaluate()方法加载自定义函数1、导出jar包(只需要勾选src下的内容)2、将导出的jar包上传到linux系统中3、加载jar包(在hive中操作)加载的四种方式:第一种:使用addjar [classPat...
2018-09-27 17:15:56
2690
原创 hive内置函数全解
1.内置运算符1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为无效的语法。 SQL使用”=”,不使用”==”。 ...
2018-09-27 12:34:06
340
原创 hive从入门到应用
目录一、HIVE概述1.Hadoop分布式计算遇到的问题2.HQL3.数据仓库与数据库的主要区别二、Hive的安装配置三、Hive原理四、Hive的元数据库1.配置mysql作为hive的元数据库2.元数据库介绍五、内部表、外部表(重要)六、分区表(重要)七、分桶表(重要)八、Hive的语法九、HIVE的UDF十、HIVE的java ap...
2018-09-25 17:28:40
1433
原创 flume配置选择器、处理器、拦截器详解
目录一、Selector(选择器)Selector概述复制模式多路复用(路由)模式二、Interceptors(拦截器)Interceptors概述1、Timestamp Interceptor2、Host Interceptor3、Static Interceptor4、UUID Interceptor5、Search and Replace Inte...
2018-09-05 12:45:51
2813
原创 flume安装及配置详解
安装flume1、去官网下载flume安装包,注意版本,下载完成后放到服务器上做好安装前准备。2、直接解压安装即可。如图:3、进入安装后的根目录,找到其目录中的conf文件夹,如图:4、找到模板配置文件,复制一个并更改文件名为:flume-*.properties,修改其中的配置。配置flume#命名Agent a1的组件,a1为agent的名称,r1、k1、...
2018-09-04 17:18:10
1097
原创 flume简介及原理概述
Apache Flume概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。目前是Apache的顶级项目。当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的...
2018-08-17 17:47:01
2055
原创 hadoop高可靠集群搭建
HA hadoop集群完美搭建此博文可以堪称史上最全、宇宙最详细的HA hadoop集群搭建攻略,是本人呕心制作,亲自搭建完成后的全过程笔录。在看下面内容之前,希望你先去看一下这几篇博文,熟悉整个hadoop集群环境搭建流程:linux系统jdk安装教程。zookeeper集群搭建教程。hadoop伪分布式集群环境搭建教程。ok,看完这几篇博文之后相信你已经了解并熟悉了ha...
2018-08-17 13:09:13
824
原创 hadoop集群搭建
hadoop环境搭建搭建步骤:1、首先开启虚拟机,如果是第一次使用,需要配置静态ip地址,配置静态ip请看我的另一篇博文:虚拟机配置静态ip2、hadoop需要jdk的支持,我们需要先安装jdk,安装jdk步骤很简单,下载安装包,解压安装即可,然后配置好jdk的环境变量就ok。linux系统jdk安装教程。3、我们还要安装zookeeper,它是Hadoop的重要组件。它是一个为分...
2018-08-16 15:39:41
931
1
原创 hadoop简介
Hadoop介绍大数据解决四大核心问题:1、数据的存储(Big Data Storage),海量数据需要处理和分析,但前提是要进行有效的存储。Hadoop的诞生突破了传统数据文件系统的单机模式。HDFS使得数据可以跨越不同的机器与设备,并且用一个路径去管理不同平台上的数据。2、数据的计算(Data Calculation),在数据有效存储的基础上,对数据的统计和分析本质上就是数据的计算...
2018-08-16 10:34:25
6814
1
原创 hdfs集群间kerberos互信配置
1.修改hdfs配置在两个集群的hdfs-site.xml中添加以下内容:<property> <name>dfs.namenode.rpc-bind-host</name> <value>0.0.0.0</value> <description></description></property><property> <name>dfs.namenode.servic
2021-09-13 11:54:43
4934
原创 Hive元数据迁移
1.导出源hive集群的元数据导出源hive集群的元数据,使用相应的关系型数据库的导出命令即可,比如pg:pg_dump -h [hostname] -U [username] hive >/tmp/hive.sql2.将导出的元数据导入目标集群将导出的元数据在目标hive集群上导入,使用相应的关系型数据库的导入命令即可,比如pg:psql -f /tmp/hive.sql -d hive注意:需要使用hive用户导入数据,否则导入数据后,表的所属用户不是hive,会导致
2021-07-13 14:44:59
1410
原创 Hadoop数据迁移工具DistCp
DistCp 介绍DistCp( distributed copy )是用于大型内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。Distcp用法基本用法集群间复制# nn1是源集群,nn2是目标集群hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo这会将nn1 上的/foo/ba
2021-07-13 14:18:26
2451
原创 kerberos使用详解
准备环境准备三台虚拟机,其中一台安装kerberos的KDC,另外两台安装kerberos的客户端,需要保证三台机器的主机名可以被解析。主机名ip角色hadoop01192.168.24.100KDChadoop02192.168.24.101Clienthadoop03192.168.24.102CLient安装Kerberos KDC在hadoop01上安装运行KDC,即安装krb5-server、krb5-libs和krb5-workstati
2021-06-21 10:21:58
7307
2
原创 zookeeper集成kerberos认证
1. 生成zookeeper的keytab文件#添加zookeeper的principalkadmin.local -q "addprinc -randkey zookeeper/$hostname@REALM.COM"#生成zookeeper的keytabkadmin.local -q "xst -kt /tmp/keytabs/zookeeper.keytab zookeeper/$hostname@REALM.COM"生成的zookeeper.keytab就在/tmp/keytabs路
2021-06-21 10:12:51
2025
原创 Spark的一些基本概念
目录RDD介绍RDD入门示例查看RDDRDD操作DAG介绍RDD的依赖关系窄依赖宽依赖Shuffle概述RDD介绍Resilient Distributed Datasets(弹性分布式数据集,简称RDD),特点是可以并行操作,并且是容错的。有两种方法可以创建RDD:1)执行Transform操作(变换操作);2)读取外部存储系统的数据集,...
2020-04-17 00:31:54
631
原创 Spark入门
目录Spark介绍Spark VS MapReduceMapReduce存在的问题Hadoop 的MapReduce 为什么不使用内存存储?Spark的优势Spark单机模式安装安装步骤:Spark单机模式启动Spark介绍Spark是UC Berkeley AMP lab (加州大 学伯克利分校的AMP实验室)所开源的,后贡献给Apache。是一种快...
2020-04-16 23:27:24
407
原创 java快速排序
高快省的排序算法有没有既不浪费空间又可以快一点的排序算法呢?那就是“快速排序”啦!光听这个名字是不是就觉得很高端。假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数(不要被这个名词吓到了,就是一个用来参照的数,待会你就知道它用来做啥的了)。为了方便,就让第一个数6作为基准数吧。接下来,需要将这个序列中所有比基准数大的数放在...
2018-12-26 15:52:04
386
原创 maven项目pom.xml文件中添加阿里中央仓库
maven项目构建时如果需要下载的依赖jar包很多,为了提高构建速度,我们可以在pom.xml文件中加入阿里中中央仓库:<repositories> <repository> <id>maven-ali</id> <url>http://maven.aliyun.com...
2018-08-21 15:57:30
15924
2
原创 SSH服务器免密登录快速配置
SSH服务器免密登录配置首先我们需要准备两台或两台以上服务器或虚拟机,配置好静态ip,配置静态ip参见博文:虚拟机配置静态ip配置SSH免密登录1、在每台服务器或虚拟机上配置hosts,命令行输入:vim /etc/hosts在其中添加所有服务器或虚拟机节点ip和对应的域名,如下图所示:然后输入:wq保存退出。2、在每个节点分别设置其hostname,如下图所示:......
2018-08-17 10:21:55
82335
6
原创 linux系统下安装zookeeper(集群)
安装配置ZooKeeper集群ZooKeeper介绍ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和...
2018-08-16 14:03:40
459
原创 linux系统安装jdk
安装jdk在官网下载需要的jdk安装包,注意版本,放到准备好的安装目录下(可用文件传输工具从windows系统上传至linux系统,我使用的是FileZilla,下载地址:https://download.youkuaiyun.com/download/snail_bing/10607830)。1、解压安装包:tar -zxvf 安装包名称2、配置jdk环境变量:vim /etc/pr...
2018-08-16 13:33:16
327
原创 ubuntu和contOS配置静态ip
ubuntu、contOS设置静态ip 使用过ubuntu和cont OS的伙伴都知道,使用虚拟机搭建服务器环境时第一步都需要设置静态ip。今天就来实战怎样配置静态ip地址。ubuntu配置静态ip首先安装ubuntu,具体安装步骤就不叙述,百度一下非常多,很简单。安装完后,打开虚拟机,接下来开始一波操作:配置静态ip打开命令窗口,输入:sudo gedit /...
2018-08-16 11:31:55
1603
1
原创 maven 项目中pom.xml的repository节点配置没有起作用怎么解决
问题描述: 昨天用cas搭建一个单点登录服务器,下载源码后导入idea。没想到出师未捷身先死,第一步就挂了。以下是我pom.xml配置文件的一部分。 <repositories> <repository> <id>sonatype-releases</id> <url>http://oss.s...
2018-08-13 11:31:18
7164
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅