life1024
hello
展开
-
Windows平台Hadoop出现 Exception message: CreateSymbolicLink error (1314): ???????????
hadoop 2.7.1windows 2008 server R2问题描述:在使用kettel执行ELT任务到hive时 hadoop出现Exception message: CreateSymbolicLink error (1314): ???????????(创建符号表异常),经过分析发现为windows账户不具备创建符号表的权限解决方法:1....原创 2019-01-29 23:03:30 · 1113 阅读 · 1 评论 -
HADOOP hive 安装问题及理解及数据导入操作
关于hive的安装请参考网上其他文章如:https://blog.youkuaiyun.com/Lee20093905/article/details/78871336,https://blog.youkuaiyun.com/vpqtxzmzezeqjj9977/article/details/80483019,https://www.cnblogs.com/jchubby/p/5449350.html,https://...原创 2019-01-29 23:08:14 · 260 阅读 · 0 评论 -
hadoop集群,mapreduce任务没有在所有slave节点上执行的问题
maptask在哪台服务器上执行了,可以在http://1master:19888 日志聚合的界面查看,也可以在运行时查看节点cpu使用情况本人使用yarn作为任务调度,两台slave,但是最终发现,要么全是slave1执行mapreduce,要么全是slave2执行mapreduce。经查找资料发现,有一台nodemanger 作为mrAppmaster,用于向其他节点分配mapred...原创 2019-01-29 23:09:23 · 1804 阅读 · 0 评论 -
Hadoop2.7.3+Hbase-1.2.6完全分布式安装部署
Hadoop安装部署基本步骤:其他HBASE配置说明请看:https://www.cnblogs.com/judylucky/p/5692147.html需要把配置好的hbase 复制到其他节点的相同目录下1、安装jdk,配置环境变量。 jdk可以去网上自行下载,环境变量如下: 编辑 vim /etc/profile 文件,添加如下内容: ...原创 2019-01-29 23:10:37 · 361 阅读 · 0 评论 -
HBase学习之路 MapReduce操作Hbase
其他hbase之java操作请看https://www.cnblogs.com/zhaobingqing/p/8269055.html,https://www.cnblogs.com/zhaobingqing/p/8269055.html,https://www.cnblogs.com/xing901022/p/7113166.htmlMapReduce从HDFS读取数据存储到HBase中...原创 2019-01-30 09:00:24 · 258 阅读 · 0 评论 -
Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程
如有问题可参考另一篇:https://www.cnblogs.com/zengxiaoliang/p/6478859.html一、修改hosts文件在主节点,就是第一台主机的命令行下;vim /etc/hosts我的是三台云主机:在原文件的基础上加上;ip1 master worker0 namenodeip2 worker1 datanode1ip3 worker...原创 2019-01-30 09:00:30 · 419 阅读 · 0 评论 -
HBASE 问题及理解
hbase 界面http://master:16010/master-status使用xshell 进入hbase命令行无法删除问题:进入到XShell 文件 --> 属性 --> 终端 --> 键盘在 DELETE键序列 和 BACKSPACE键序列 中都选择 ASCII 127HBASE常用操作命令https://www....原创 2019-01-30 09:00:35 · 490 阅读 · 0 评论 -
hadoop 之flume 日志收集系统,及与kafka相似与不同处
flume主要用于日志采集,其中的agent里面包含3个核心的组件:source(采集/输入)—->channel(缓存/管道)—–>sink(输出),类似生产者、仓库、消费者的架构。source:source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequen...原创 2019-02-13 12:52:27 · 727 阅读 · 0 评论 -
hadoop 之pig
相比Java的MapReduce api,Pig为大型数据集的处理提供了更高层次的抽象,与MapReduce相比,Pig提供了更丰富的数据结构,一般都是多值和嵌套的数据结构。Pig还提供了一套更强大的数据变换操作,包括在MapReduce中被忽视的连接Join操作。pig 也是hadoop中的一员,是为了简化原生的mapreduce,不用运行jar便可以做mapreduce,只需要输入几行...原创 2019-02-13 13:38:06 · 1835 阅读 · 0 评论 -
hadoop 之Mahout 数据挖掘
Mahout 仅提供一些java的算法包,通过Mahout执行这些算法包,并把hdfs上的文件作为输入可以在hadoop上做分布式计算提供的常用算法Mahout 提供了常用算法的程序库,可以基于分布式做数据挖掘. 常见算法 回归算法:用于预测(日期交易量预测等等)。比如身高和体重作为x,y坐标,给出一组人的身高体重,形成作为图上的一个个点(学习集),计算出一条直线或者...原创 2019-02-13 14:12:09 · 1814 阅读 · 0 评论 -
strom 与spark对比
1.storm简介Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。2.对比用一张图来表示3. Spark Streaming与Storm的优劣分析...原创 2019-02-13 14:21:29 · 430 阅读 · 0 评论 -
hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介绍
1:NameNode2:SecondNameNode3:DataNode4:ResourceManager5:NodeManager----------------------------------------------------------------------------------------------------------------------------...原创 2019-01-29 23:02:02 · 1543 阅读 · 0 评论 -
HDFS HBASE JAVA 读写 查询
pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/...原创 2019-01-29 13:36:02 · 264 阅读 · 0 评论 -
hadoop,spark,yarn,jobhistory等用到的一些WEB界面
http://192.168.244.100:19888 日志聚合的界面jobhistory,可以看到每个job的分配情况,maptask的分配到哪个节点,及完成情况需要在hadoop的sbin下执行如下命令mr-jobhistory-daemon.sh start historyserverhttp://192.168.244.100:50070hadoop的web界面http...原创 2019-01-27 18:27:56 · 1396 阅读 · 0 评论 -
hadoop +hbase +zookeeper 完全分布搭建 (版本一)
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.0又增加了YARN HA注意:apache提供的hadoop-2.6.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.0就需要重新在64操作系统上重新编译一.重新编译原创 2016-05-29 09:43:43 · 182071 阅读 · 0 评论 -
thirft 生成各种语言远程调用接口
首先先安装好 thirft 1、添加依赖 jar org.apache.thrift libthrift 0.8.0 org.slf4j slf4j-log4j12 1.6.12、编写IDL文件 Hello.thriftnamespace Java service.demoservice Hello { s原创 2016-05-28 22:00:23 · 695 阅读 · 0 评论 -
sqoop 把 hdfs 和关系型数据库 (mysql等)互导
简介 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。http://sqoop.apache.org/ 导出导入的数据与字段的顺序进行匹配 从HD原创 2016-05-28 21:12:08 · 14186 阅读 · 0 评论 -
hive
hive 的 表与hdfs数据关系映射放在元数据库中,也就是mysql中,而真正的数据放在 hdfs中,通过mysql中表 ,字段等与hdfs上数据的映射来查询 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简原创 2016-05-28 20:38:07 · 2041 阅读 · 0 评论 -
hadoop eclipse 插件配置使用
第一次使用hadoop,另外eclipse也不太熟悉,现在把自己在安装过程中得琐碎问题记录下来。eclipse版本:eclipse-jee-indigo-SR2-linux-gtk.tar.gzhadoop版本:hadoop-0.20.203.0本文前提是,你已经正确安装了hadoop-0.20.203.0,hadoop伪分布模式的安装过程网上有很多。eclipse转载 2016-07-18 18:32:51 · 10984 阅读 · 0 评论 -
hadoop 安装配置启动
自己搭建一个Hadoop集群,小型的。我在台式机上新建了3台虚拟机,一台用于Master,两台用于Slave。系统用的Ubuntu14.04.系统准备好之后。一、在UBuntu下创建hadoop用户和用户组1. 首先新建hadoop用户组[cpp] view plain copy sudo addgroup hadoop转载 2016-07-18 18:35:21 · 9698 阅读 · 0 评论 -
单点搭建HADOOP系统
单点搭建HADOOP系统安装JDK1.下载jdk1.6.0_20;(下载文件为jdk-6u20-linux-i586.bin);2.进入到jdk文件所在目录,由于运行bin文件是需要权限的,所以运行如下命令:chmod u+x jdk-6u20-linux-i586.bin,使得当前用户有权限执行该文件;3.在jdk文件所在目录下执行:sudo ./jdk-6u20-l转载 2016-07-18 18:29:59 · 1688 阅读 · 0 评论 -
hadoop 小结
如果Apache hadoop版本是0.x 或者1.x, bin/hadoop hdfs fs -mkdir -p /in bin/hadoop hdfs fs -put /home/du/input in如果Apache hadoop版本是2.x. 注意:/home/du/input是原始文件所在目录 bin/hdfs dfs -mkdir -p原创 2016-05-29 09:52:55 · 548 阅读 · 0 评论 -
ssh 免密码登录
ssh 无密码登录要使用公钥与私钥。linux下可以用用ssh-keygen生成公钥/私钥对,下面我以CentOS为例。有机器A(192.168.1.155),B(192.168.1.181)。现想A通过ssh免密码登录到B。1.在A机下生成公钥/私钥对。[chenlb@A ~]$ ssh-keygen -t rsa 不用输入任何东西,回车三次它在/root原创 2016-05-23 17:30:01 · 1032 阅读 · 0 评论 -
Hadoop2.9 利用VMware搭建自己的hadoop集群
另还参考的另一篇文章:http://www.cnblogs.com/ocean-sky/p/8397778.html正文: 在之前的hadoop文章中,我主要是介绍了自己初次学习hadoop的过程中是如何将hadoop伪分布式模式部署到linux环境中的,如何自己编译一个hadoop的eclipse插件,以及如何在eclipse中搭建hadoop编程环境。如果大家有需要的话,可以点击我在...原创 2019-01-27 18:11:24 · 968 阅读 · 0 评论 -
修改hdfs上的文件所属用户、所属组等读写执行控制权限
HDFS支持权限控制,但支持较弱。HDFS的设计是基于POSIX模型的,支持按用户、用户组、其他用户的读写执行控制权限。在linux命令行下,可以使用下面的命令修改文件的权限、文件所有者,文件所属组:sudo addgroup Hadoop#添加一个hadoop组sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组sudo gedit etc/sud...原创 2019-01-27 18:16:12 · 13628 阅读 · 0 评论 -
hadoop 日志聚合 jobhistory配置
一、前言安装了hadoop-2.7.3集群,登陆YARN WEB界面,发现下图mapreduce应用UI入口都无法使用,现记录下处理方案二、处理方案1.yarn-site.xml配置yarn.resourcemanager.webapp.address,如果没配置ApplicationMaster入口无法使用<property> <name&g...原创 2019-01-27 18:20:54 · 735 阅读 · 0 评论 -
hadoop +hbase +zookeeper 完全分布搭建 (版本二
这里有几个主要关系:1.经过Map、Reduce运算后产生的结果看上去是被写入到HBase了,但是其实HBase中HLog和StoreFile中的文件在进行flush to disk操作时,这两个文件存储到了HDFS的DataNode中,HDFS才是永久存储。2.ZooKeeper跟Hadoop Core、HBase有什么关系呢?ZooKeeper都提供了哪些服务呢?主要有:管理H原创 2016-05-29 09:45:35 · 1153 阅读 · 0 评论