
Hadoop
文章平均质量分 92
fly2749
这个作者很懒,什么都没留下…
展开
-
(csdn内转载)DataNode,NameNode,JobTracker,TaskTracker用jps查看无法启动解决办法
最近配了一个单机版的hadoop1.0.4,参考官方网址:http://hadoop.apache.org/docs/r1.0.4/single_node_setup.html配完后使用jps查看,发现总是有一些没有启动,非常郁闷,在多番研究后发现有两个原因,一个是在/tmp目录下有以前使用2.02版本留下的文件没有删除,二个是因为端口被占用了解决方法:一.删除/tmp下的所有文件转载 2013-05-01 00:45:54 · 1374 阅读 · 0 评论 -
RHEL 5下配置Hadoop集群:java.net.NoRouteToHostException: No route to host问题的解决
最近,要把原来基于Ubuntu下配置的Hadoop集群迁移到RHEL 5下,结果在启动的时候,出现了莫名其妙的问题:Namenode进程启动起来了,但是在登录到Datanode上启动集群slaves的时候,出现了Datanode无法连接到Namenode的问题,根据Datanode日志,可以很容易地定位到问题,肯定是在集群启动之初,Datanode向Namenode注册的时候失败了,在Data转载 2013-07-21 03:14:20 · 1534 阅读 · 0 评论 -
linux下安装hive
首先前提是安装好了jre和hadoop,并且保证hadoop可以正常启动。一、安装hive从http://www.apache.org/dyn/closer.cgi/hive/中下载你所需的版本。笔者hadoop是0.20,hive选hive-0.10.0/tar -xf hive-x.y.z.tar.gz(本次安装为hive-0.10.0.tar.gz)将转载 2013-07-01 22:53:57 · 1712 阅读 · 0 评论 -
HBase shell 简单使用
引言HBase提供了丰富的访问接口。 • HBase Shell • Java clietn API • Jython、Groovy DSL、Scala • REST • Thrift(Ruby、Python、Perl、C++…) • MapReduce • Hive/Pig其中HBase Shell是常用的便捷方式首先你需要一个HBase转载 2013-07-14 00:53:58 · 945 阅读 · 0 评论 -
Hive基本命令整理
创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样hive> create table new转载 2013-07-14 00:52:39 · 930 阅读 · 0 评论 -
Pig实战
. Pig简介 pig是hadoop项目的一个拓展项目, 用以简化hadoop编程(简化的程度超乎想象啊),并且提供一个更高层次抽象的数据处理能力,同时能够保持hadoop的简单和可靠性。. 安装pig 2.1 下载pig:[点击下载]pig安装包2.2 解压下载完成的pig安装包: xuqiang@ubuntu:~/hadoop/src/pig$ tar zxvf pi转载 2013-07-14 01:13:35 · 1125 阅读 · 0 评论 -
通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据
下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境:宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装Hadoop,并实现免密钥互访,配hosts转载 2013-07-06 17:43:19 · 1432 阅读 · 0 评论 -
Hadoop之气象站分析演示代码
一,背景气象站分析一批复杂的数据,演示需要分析的数据0043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9-00111+99999999999存放在input.txt中。其中包含了年份 和 温度数据需要把这个年份和温度数据提取出来 二,具体执行1,转载 2013-06-02 22:35:24 · 1414 阅读 · 0 评论 -
(csdn内转载)Eclipse下配置使用Hadoop插件
前提,请先配置好Hadoop集群,并启动Hadoop守护进程。集群搭建参见:http://blog.youkuaiyun.com/matraxa/article/details/7179366我使用的软件版本如下:Ubuntu: Ubuntu10.04JDK: jdk1.6.0_25Eclipse: Eclipse3.71Hadoop: Hadoop-0.20.203.0转载 2013-05-27 15:49:37 · 950 阅读 · 0 评论 -
Pig安装与配置教程
来自原小站,技术含量≈0,翻译整理自Hadoop-The Definitive Guide。Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。Pig是一个转载 2013-05-26 02:31:40 · 1018 阅读 · 0 评论 -
hadoop的dfs.replication
首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了,设置太多也没什么用。一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1 -p转载 2013-05-11 23:46:38 · 1160 阅读 · 0 评论 -
在eclipse上运行MapReduce的wordcount程序所遇到的问题
接触Hadoop有些日子了,今天想在ecipse上跑一下MR的wordcount程序。没想到需要了很多莫名其妙的问题,现在汇总一下,希望其他朋友看到不会走弯路。本地安装的eclipse是3.6.2版本,其实平时是不会去刻意的去看eclipse的版本号,但是hadoop对每个所运行且配合使用的应用都有严格的版本要求,否则会运行不起来。首先将eclipse插件安装上,我使用的是ha原创 2013-05-26 23:26:23 · 1436 阅读 · 0 评论 -
(csdn内转载)Hadoop状态页面的Browse the filesystem链接无效的问题
NameNode '192.168.1.164:9000'Started:Tue Jul 06 14:37:10 CST 2010Version:0.20.2, r911707Compiled:Fri Feb 19 08:07:34 UTC 2010 by chrisdoUpgrades:There are no upgrad转载 2013-05-11 15:15:15 · 1113 阅读 · 0 评论 -
hadoop错误和解决方法汇总
==================================windows cygwin环境下,遇到这个错误:org.apache.hadoop.security.AccessControlException:Permission denied: user=cyg_server, access=EXECUTE, inode="job_201010161322_0003":heipa转载 2013-05-11 01:06:44 · 1443 阅读 · 0 评论 -
Hadoop 问题总结 常见问题
检测hadoop是否正确安装配置的一个方法是运行jps 看看NameNode DataNode SecondaryNameNode JobTracker TaskTracker 这五个进程起来了没有,如果没起来,问题可能要大点,如果起来了,看看启动日志,一般是namenode的那一个,看看里面有没有什么异常,如果都没问题,看看下面的问题:1、输入./hadoop dfsadmin -repor转载 2013-05-11 00:24:47 · 1094 阅读 · 0 评论 -
(csdn内转载)hbase完全分布式环境搭建
HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系转载 2013-05-23 23:40:45 · 1465 阅读 · 0 评论 -
(csdn内转载)hadoop学习之hadoop完全分布式集群安装
要想深入的学习hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个hadoop分布式集群了。说来简单,但是应该怎么做呢?不急,本文的主要目的就是让新手看了之后也能够亲自动手实施这些过程。由于本人资金不充裕,只能通过虚拟机来实施模拟集群环境,虽然说是虚机模拟,但是在虚机转载 2013-05-07 23:10:42 · 978 阅读 · 0 评论 -
Hive 和 HBase 的快速入门
虽然有一些正式的文档, 但是我发现在后期用HBase去设置一个Hive还是比较繁琐。这些有帮助性的文档能够使我们快速入门。该文章假设你已经搭建了HBase。 如果没有的话,去看我的HBase quickstart这篇文章。注: 这些是针对于开发的用法。 他们没有使用 HDFS, 举例说明。 作为在产品开发中的一份充分而全面的文档,可以去关注 CDH4 方面比较卓越的地方。 Linu翻译 2013-05-18 01:03:52 · 1501 阅读 · 0 评论 -
hadoop datanode 问题 INFO org.apache.hadoop.ipc.RPC: Server at /:9000 not available yet, Zzzzz..
本以为这个样子就大功告成了,然后我用bin/hadoop dfsadmin -report 查看hadoop的情况,现实的信息如下;Configured Capacity: 0(0KB)Present Capacity: 0(0KB)DFS Remaining: 0(0KB)DFS Used: 0(0KB)DSF Used%:?%Under Replicated blo转载 2013-07-21 03:15:59 · 2510 阅读 · 2 评论