
hadoop
hadoop,spark,flink技术相关博客
luffy5459
程序猿一枚,喜欢瞎捣鼓。
展开
-
No configuration found for this host:tier1
flume启动时,如果没有通过参数(--name 或者 - n)指定代理,那么默认使用tier1作为代理名称,启动成功后,不会报错,但是可能会提示如题警告。flume.conf配置文件默认就是用tier1作为代理名称。如下所示。这个实例是网上一个正好使用了默认tier1作为agent,但是启动时却使用了"agent"作为agent,有点多余。再联系本文,不难推测这里启动时应该指定-n tier1。...原创 2018-02-23 10:47:05 · 6745 阅读 · 0 评论 -
Hue安装与配置
Hue是cloudera提供的hadoop ui,利用它可以很直观的操作和查看hadoop生态应用。一般安装cloudera manager之后会自动带有hue管理界面,通过http://hueserver:8888即可访问。另外,hue也可以单独安装,无须借助cloudera manager。这里介绍如何单独安装hue。环境要求:centos7,jdk8,maven3。1、安装依赖包。yum i...原创 2018-03-02 18:53:47 · 4515 阅读 · 1 评论 -
windows+spark本地运行环境搭建
spark作为一个内存mapreduce框架,速度是hadoop的10倍甚至100倍。windows下可以通过简单设置,搭建本地运行环境。1、下载spark预编译版本,spark运行环境依赖jdk,scala,这里下载的最新spark版本是2.3,对应jdk1.8+scala2.11.8。java -versionjava version "1.8.0_151"Java(TM) SE Runt...原创 2018-04-04 21:47:12 · 3895 阅读 · 0 评论 -
IDEA+scala插件开发spark程序
spark由scala语言编写,开发spark程序,自然也少不了scala环境,这里介绍如何利用Intellij IDEA开发spark。1、环境准备。jdk,scala,idea这些对于本文来说都已经默认安装。2、idea中安装scala language插件。File->Settings->Plugins->Browse Repositories,搜索scala。选中Scal...原创 2018-04-04 23:44:55 · 4332 阅读 · 0 评论 -
hadoop-3.0.1源码编译需要注意的事项
这次尝试了一下源码编译最新的hadoop3.0.1,发现了几个和原来不太一样的地方。记录下来:1、需要的jdk不再是原来的1.7,直接jdk1.8就编译通过了;2、以前安装需要安装编译依赖cmake,这次是需要cmake3,redhat7默认没有cmake3的package,需要先安装epel-release,然后安装cmake3,最后将cmake3做一个软链cmake;yum install e...原创 2018-04-05 16:42:06 · 1816 阅读 · 1 评论 -
hadoop-3.0.1单节点安装部署
hadoop-3.0.1编译上和原来有不同的地方,部署时,也有一些需要注意的地方。安装部署过程一笔带过:a)设置免秘钥登录。b)设置jdk环境变量。c)配置编译好的hadoop环境变量,HADOOP_HOME,YARN_HOME,HADOOP_CONF_DIR,LD_LIBRARY_PATH,YARN_CONF_DIR。d)配置core-site.xml,hdfs-site.xml,mapred-...原创 2018-04-05 18:49:14 · 1324 阅读 · 2 评论 -
hive2.0.0安装(配合hadoop2.6.0)
一、前提条件安装了Hadoop2.6.0,并且配置了相关环境变量。jdk安装,免密登录设置,环境变量设置。JAVA_HOME JRE_HOME CLASSPATH PATH二、安装配置1、下载hive apache-hive-2.0.0-bin.tar.gz2、解压缩并修改配置文件tar -xzvf apache-hive-2.0.0-bin.tar.gzmv apache-hive-2.0原创 2016-08-21 22:58:36 · 1635 阅读 · 0 评论 -
hadoop2.6.0伪分布式环境搭建
Hadoop作为分布式大数据处理框架在数据处理应用中有广泛的应用,本文介绍在Linux环境下搭建hadoop伪分布式集群,记录下自己的学习过程。原创 2017-02-07 00:08:14 · 702 阅读 · 0 评论 -
hive自定义函数UDF
Hive自定义函数(UDF),可以帮助用户轻松实现在hql语句中展现自定义查询结果。这里以一个简单的连接函数来实现用户自定义函数,假设表结构如下:表中只有两个简单的字段,id和name。这里实现一个将id和name用"-"连接的函数,最后输出结果。第一步、书写StringJoin类,继承UDF,实现名称为evaluate的方法;书写完成之后打包stringjoin.jar原创 2017-03-06 22:39:21 · 705 阅读 · 0 评论 -
Hive使用入门
先介绍一些基本的命令:1、进入hive命令行,这种方式进入之后,执行操作为带有执行mapreduce的调试信息;hive --service cli --等同于直接输入hive2、进入hive命令行静默模式,不输出调试信息;hive -S --静默模式3、查看表信息,查看函数信息,查看表子段信息,每一条hiveql语句后面都要跟分号(;)结尾show tab原创 2017-03-07 21:25:48 · 879 阅读 · 0 评论 -
Hive内部表和外部表的区别
hive作为基于hdfs的数据仓库,在构建表的时候,会有内部表和外部表,这里介绍两者的异同点。原创 2017-03-08 23:20:34 · 2051 阅读 · 0 评论 -
hive:For direct MetaStore DB connections, we don't support retries at the client level
hive创建表和导入数据都没有问题,在删除表,做drop table 时报如题所示的错误。 有的文章说修改元数据库字符集为latin1,但是元数据库字符集默认创建就是latin1,修改字符集无法解决该问题。 通过更换mysql驱动jar包解决问题,我的原始jar包是mysql-connector-java-5.1.18.jar,更换为mysql...原创 2017-03-09 23:30:56 · 1427 阅读 · 0 评论 -
spark-1.6.0源码编译安装
环境准备spark是scala语言写的,scala运行需要jdk,如果通过maven编译,还需要maven环境,因此spark源码编译需要安装jdk,scala,apache-maven这三样环境。这里选择的是spark1.6.0,他需要的scala是2.10+,jdk7+,我的环境配置如下:验证环境:相关文件地址:链接: http://pan.baidu.com/s/1eS1j07S 密码: c...原创 2017-05-15 18:09:21 · 1757 阅读 · 4 评论 -
redhat7源码编译hadoop2.6.0
以前在32位linux机器上编译过hadoop2.6.0,这次在redhat7 64bit上再次编译hadoop2.6.0,除必须的jdk,maven,protobuf需要安装之外,还需要安装系统依赖库gcc,gcc-c++,ncurses-devel,openssl-devel,cmake,这些依赖库的安装可以直接通过yum命令一下安装: yum install -y gcc g...原创 2017-06-23 13:04:42 · 787 阅读 · 0 评论 -
kafka+flume+hdfs实时日志流系统初探
kafka+flume+hdfs搭建实时日志流系统原创 2017-06-29 23:49:26 · 9927 阅读 · 4 评论 -
hadoop-2.8.0完全分布式环境搭建
一、机器及环境准备。1、jdk安装不用多说,安装完成配置环境变量即可。export JAVA_HOME=/usr/java/latestexport JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jarexport PATH=$JAVA_HOME/bin:$PATH运行...原创 2017-10-16 23:14:06 · 509 阅读 · 0 评论 -
flink快速入门及采坑记录
apache flink作为第四代mapreduce计算框架,已经得到越来越多的应用,这里介绍如何快速入门,以及记录一个内存错误的问题。1、安装jdk2、下载flink,并解压。wget https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.3.2/flink-1.3.2-bin-hadoop27-scala_2.11.tgz3、运行报...原创 2017-12-06 18:51:33 · 10308 阅读 · 3 评论