
hadoop
文章平均质量分 92
SunmonDong
这个作者很懒,什么都没留下…
展开
-
linux下vi命令大全
进入vi的命令 vi filename :打开或新建文件,并将光标置于第一行首 vi +n filename :打开文件,并将光标置于第n行首 vi + filename :打开文件,并将光标置于最后一行首 vi +/pattern filename:打开文件,并将光标置于第一个与pattern匹配的串处 vi -r filename :在上次正用vi编辑时发生系统崩溃,恢复filenam转载 2016-04-02 22:24:22 · 370 阅读 · 0 评论 -
Hadoop历史和简介
一.Hadoop的历史:hadoop之父DougCuttinghadoop一开始只是ApacheLucene的子项目。ApacheLucene1.全球第一个开源的全文检索引擎工具包2.完整的查询引擎和索引引擎3.部分文本分析引擎4.开发人员可在此基础上建立起完整的全文检索引擎。Nutch1.开源的基于Lucene的网页搜索引擎2.加入网页抓取/解析等功能原创 2016-07-01 16:10:18 · 5537 阅读 · 0 评论 -
数据仓库——Hive入门介绍
一,什么是Hive:1.Hive是建立在Hadoop HDFS上的数据仓库基础架构;2.Hive可以用来进行数据提取转化加载(ETL)3.Hive定义了简单的类似SQL查询语言,称为HQL它允许熟悉SQL的用户查询数据4.Hive允许熟悉MapRduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作;5.Hive是SQL解析引原创 2016-05-20 11:35:17 · 4260 阅读 · 0 评论 -
HIVE+mysql环境搭建及简单应用
Hive环境搭建之前需要搭建hdfs分布式 简单的分布式搭建点击这里 HA(两个namenode)高可用性的hadoop完全分布式环境配置点击这里Hive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore(切换到root用户)1).配置HIVE_HOME环境变量 export原创 2016-04-24 13:09:09 · 2344 阅读 · 0 评论 -
hadoop HA启动时 两个namenode节点都是standby,解决办法
首先你要确定不用ha的时候你的hadoop集群是正常的,不然找错误的方向就偏离了如果都正常,配置ha 需要zookeeper,先要看看是不是zookeeper没有配置好的问题如果都正常,在hadoop安装目录执行sbin/hadoop-daemon.sh start zkfc,这句是启动zookeeper选举制度,然后执行bin/hdfs haadmin -transitionToActive原创 2016-04-24 20:36:09 · 30294 阅读 · 0 评论 -
zookeeper的集群安装
1.上传zk安装包(点击这里下载)2.解压3.配置(先在一台节点上配置) 3.1添加一个zoo.cfg配置文件 $ZOOKEEPER/conf mv zoo_sample.cfg zoo.cfg3.2修改配置文件(zoo.cfg) dataDir=/sfd/zookeeper-3.4.5/data server.1=hadoop-master:2888:3原创 2016-04-22 13:42:07 · 5825 阅读 · 0 评论 -
uri中为什么本地文件file后面跟三个斜杠, http等协议跟两个斜杠?
那就要从URI[1]的结构来看了 scheme:[//[user:password@]host[:port]][/]path[?query][#fragment] 可以看到,如果有host的时候,前面是要加 // 的,因此对于 http 等这些网络地址来讲 http://www.baidu.sb:80/ad/cash 写成这样很自然。 那么如果是文件呢?文件因为没有 host 啊,所以中间转载 2016-05-07 11:18:23 · 10633 阅读 · 0 评论 -
hadoop的回收站功能
hadoop 的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启: fs.trash.interval 1440 Number of minutes between trash checkpoints. If zero, the trash feature is disabled. fs.转载 2016-05-07 10:17:08 · 664 阅读 · 0 评论 -
hadoop单元调试:MRunit(maven配置pom.xml)
hadoop进行单元测试时报错: Found interface org.apache.hadoop.mapreduce.TaskInputOutputContext, but class was expected 我的是因为使用maven的同时自己手动又导入了hadoop2.7.1的所有jar包,使得这里的jar包maven的pom.xml中配置的hadoop的jar包冲突了。 我的解决办法转载 2016-05-29 10:51:49 · 2058 阅读 · 0 评论 -
hadoop2.x新特性HDFS HA、YARN HA,分布式搭建
前期准备就不详细说了,课堂上都介绍了 一、.修改Linux主机名:所有主机上的主机名必须一致 sudo gedit /etc/hostname2.修改IP:刚建好的虚拟机的ip是动态的每次重启可能发生该变,这样的话每次重启可能都有需要修改hosts文件,所以这里我们推荐配置静态IP,配置方法如下: 1). 2). 3). 4). 5).选中IPv4转载 2016-04-17 23:06:47 · 2882 阅读 · 0 评论 -
Hadoop常见错误及解决办法汇总
错误一:Java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后原因:每次namenode format会重新创建一个namenodeId,而data目录包含了上次format时的id,namenode format清空了namenode下的数据,但是没有清空datanode下的数据,导致启动时失败,所要做的就是每次fotma原创 2016-05-01 14:37:17 · 2424 阅读 · 0 评论 -
java.lang.RuntimeException: Hive metastore database is not initialized.Please use schematool
问题:Exception in thread “main” java.lang.RuntimeException: Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType …) to create the schema.原因:由于没有初始化元数据库原创 2016-05-10 20:09:13 · 3901 阅读 · 0 评论 -
org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete
执行: hadoop dfsadmin -safemode leave原创 2016-04-25 12:52:51 · 1575 阅读 · 0 评论 -
hadoop配置、运行错误总结
一、hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下 (问题非常明显,基本无疑义) Incompatible namespaceIDS in … :namenode namespaceID = … ,datanode namespaceID=… 错误,原因是格式化namenode后会重新创建一个新的namespaceID,以至转载 2016-04-25 10:26:58 · 2367 阅读 · 0 评论 -
MR程序的几种提交运行模式
本地模型运行1.在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://sfd:9000/wc/srcdata)2.在linux的eclipse里面直接运行main方法,但是不要添加y转载 2016-04-06 20:21:20 · 1931 阅读 · 0 评论 -
HDFS的JAVA客户端编写(JAVA代码实现对HDFS的操作)
源码如下:package com.sfd.hdfs;import java.io.FileInputStream;import java.io.IOException;import org.apache.commons.compress.utils.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.had原创 2016-04-04 10:57:12 · 2859 阅读 · 0 评论 -
HDFS的Shell命令
HDFS的Shell命令:haddop fs -ls / (查询目录)hadoop fs -mkdir /test (在根目录下创建一个目录test)hadoop fs -put ./test.txt /test (将本地的test.txt文件上传到HDFS根目录下的test文件夹中去) hadoop fs -copyFromLocal ./test.txt /t原创 2016-04-02 22:15:58 · 1597 阅读 · 0 评论 -
Hadoop 生态系统中个项目的简介
1,Common:一系列组件和接口,用于分布式文件系统和通用I/O(序列化,Java RPC和持久化数据结构) 2,Avro:一种序列化系统,用于支持高效、跨语言的RPC和持久化数据存储。 3,MapReduce:分布式数据处理模型和执行环境,运行于大型商用机集群。 4,HDFS:分布式文件系统,运用于大型商用机集群。 5,Pig:数据流语言和运行环境,用以研究非常庞大的数据集。Pig运行在原创 2016-04-03 19:42:42 · 1123 阅读 · 0 评论 -
Hadoop的历史和创建
一.Hadoop的历史:hadoop之父DougCuttinghadoop一开始只是ApacheLucene的子项目。ApacheLucene1.全球第一个开源的全文检索引擎工具包2.完整的查询引擎和索引引擎3.部分文本分析引擎4.开发人员可在此基础上建立起完整的全文检索引擎。Nutch1.开源的基于Lucene的网页搜索引擎2.加入网页抓取/解析等功能3.类似于Google等商业搜索引擎Goole原创 2016-07-01 16:12:12 · 1309 阅读 · 0 评论