
大数据开发
文章平均质量分 86
eric_lee
技术改变生活,热爱技术qq:1193279880
展开
-
零Linux基础安装hadoop过程笔记
2013年:苦心钻研 不论回报Hadoop学习笔记(一):零Linux基础安装hadoop过程笔记环境及目标:- 系统:VMWare / Ubuntu 12.04- Hadoop版本:0.20.2- 我的节点配置 (完全分布式集群)Master (job tracker) 192.168.221.130h1转载 2014-01-25 19:44:11 · 892 阅读 · 0 评论 -
Windows 平台下安装Cygwin后,sshd服务无法启动
indows 平台下安装Cygwin后,sshd服务无法启动 系统日志记录信息:事件 ID ( 0 )的描述(在资源( sshd )中)无法找到。本地计算机可能没有必要的注册信息或消息 DLL 文件来从远程计算机显示消息。您可能可以使用 /AUXSOURCE= 标识来检索词描述;查看帮助和支持以了解详细信息。下列信息是事件的一部分: sshd: PID 7340: `sshd' ser转载 2014-01-25 17:54:06 · 592 阅读 · 0 评论 -
编译hadoop eclipse插件 详解
编译hadoop eclipse插件 详解分类: Hadoop出处:http://blog.sina.com.cn/s/blog_8c6d7ff601018d62.html一、linux下编译hadoop和eclipse-plugin操作系统为 ubuntu10.0.4 x861.下载软件包hadoop-1.0.4.tar.gzeclipse-jee转载 2014-01-18 22:38:38 · 636 阅读 · 0 评论 -
hive安装
1. downloadwget http://mirror.mel.bkb.net.au/pub/apache//hive/stable/hive-0.8.1.tar.gztar zxf hive-0.8.1.tar.gz只需要在一个节点上安装2. 设置环境变量vi .bash_profileexport JAVA_HOME=/usr/lib/jvm/java-转载 2014-01-29 15:42:25 · 672 阅读 · 0 评论 -
myeclipse配置hadoop开发环境,及遇到问题解决
http://blog.youkuaiyun.com/caoshichaocaoshichao/article/details/154938191、安装Hadoop开发插件 hadoop安装包contrib/目录下有个插件hadoop-1.2.1-eclipse-plugin.jar,拷贝到eclipse根目录下/dropins目录下。2、 启动eclipse,打开Perspe转载 2014-01-19 22:10:30 · 756 阅读 · 0 评论 -
hadoop学习提纲
一、集群安装监控和管理模块一 EasyHadoop集群入门 ·Hadoop暴风应用案例 http://tech.watchstor.com/spec/salon/20120512/#585565-baidu-1-49444-69d7345a4fe33e9a9d9dabb775dd2d10·EasyHadoop Manager安装及部署 模块二 Hadoop集群管理·Hadoo原创 2014-01-30 12:30:56 · 626 阅读 · 0 评论 -
apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程
1 软件环境:VMware8.0Ubuntu-12.10-desktop-i386jdk-7u40-linux-i586.tar.gzhadoop-1.2.1.tar.gzeclipse-dsl-juno-SR1-linux-gtk.tar.gzhadoop-eclipse-plugin-1.2.1.jarapache-maven-2.2.1原创 2014-01-30 14:44:27 · 698 阅读 · 1 评论 -
hadoop学习之-应用ODCH工具实现oralce外部表访问HDFS数据文件
hadoop学习之-使用ODCH工具实现oralce外部表访问HDFS数据文件实验说明:本实验目的是通过使用Oracle的HDFS直接连接器从oracle数据库的外部表中直接访问HDFS的数据文件。支持的数据文件格式取决于ORACLE_LOADER的驱动程序。 一、 安装准备1. 软件下载:Oracle Big Data Connec转载 2014-01-30 16:13:31 · 1291 阅读 · 0 评论 -
pig安装
Pig概述: Pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作, 是一种探索大规模数据集的脚本语言。 pig是在HDFS和MapReduce之上的数据流处理语言,它将数据流处理翻译成多个map和reduce函数,提供更高层次的抽象将程序员从具体的编程中解放出来,对于不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语转载 2014-01-30 16:14:12 · 640 阅读 · 0 评论 -
好网址
http://blog.youkuaiyun.com/lichangzai/article/category/1268670原创 2014-01-30 16:35:11 · 461 阅读 · 0 评论 -
hadoop学习之-Sqoop与关数据库(mysql)之间导入实践
一、 Sqoop概述Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如: MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 二、 Sqoop安装配置软件下载:Sqoop官方版本:h转载 2014-01-31 11:17:06 · 724 阅读 · 0 评论 -
apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程
1 软件环境:VMware8.0Ubuntu-12.10-desktop-i386jdk-7u40-linux-i586.tar.gzhadoop-1.2.1.tar.gzeclipse-dsl-juno-SR1-linux-gtk.tar.gzhadoop-eclipse-plugin-1.2.1.jarapache-maven-2.2.1转载 2014-02-01 21:21:33 · 700 阅读 · 0 评论 -
hive学习入门
https://cwiki.apache.org/confluence/display/Hive/Homehttps://cwiki.apache.org/confluence/display/Hive/GettingStartedhttps://cwiki.apache.org/confluence/display/Hive/Tutorial转载 2014-02-01 21:51:09 · 868 阅读 · 0 评论 -
好hive的5个提示
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关转载 2014-02-02 21:19:03 · 679 阅读 · 2 评论 -
hive学习提纲
课程大纲:第一部分:第1个主题:云计算的四大核心技术HDFS、MapReduce、HBase、Hive第2个主题:Hive集群与管理1、Hadoop集群的搭建2、Hadoop集群的监控3、Hadoop集群的管理4、集群下运行MapReduce程序5、安装并启动Hive6、测试Hive第3主题:Hive的命令、数据类型和文件格式1、Hive的CLI原创 2014-02-04 10:55:28 · 898 阅读 · 1 评论 -
hive优化
hive优化1、列裁剪 读取数据时,只读取查询中需要的列,忽略其他列 select a,b from t where e 需要设置hive.optimize.cp=true2、分区裁剪 经过分区裁剪优化的查询,要实现分区裁剪, 需要设置hive.optimize.pruner=true3、join操作 将条目少的表/子查询放在j原创 2014-02-04 15:37:02 · 487 阅读 · 0 评论 -
基于hive的日志数据统计实战
一、 hive 简介 hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。 它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这些数据进行自动化管理和处理。我们可以把 hive 中海量结构化数据看成一个个的表,而实际上这些数据是分布式转载 2014-02-04 16:19:38 · 562 阅读 · 0 评论 -
学习hive源代码
学习 Hive 李建奇 1 学习看了一部分代码,感觉,hive 比较复杂,使用场景有限,一般用 hadoop 原生的 map reduce 就可以了。 1.1 版本0.6 1.2 目的 学习 facebook 等应用 hive 的经验,以便应用于公司。 学习代码的目的转载 2014-02-04 16:27:38 · 817 阅读 · 0 评论 -
hbase_url
http://www.jaywong.org/?cat=8&paged=3转载 2014-02-04 16:47:49 · 425 阅读 · 0 评论 -
有cdh认证的
http://heipark.iteye.com/category/139122转载 2014-02-05 17:04:33 · 992 阅读 · 0 评论 -
Hive优化总结
Hive优化总结优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次转载 2014-02-04 11:49:32 · 424 阅读 · 0 评论 -
sqoop的安装使用
散仙,在上篇文章中,简述了sqoop的的功能,作用,以及版本演进,那么本篇我们就来实战下,看下如下安装使用sqoop(注:散仙在这里部署的是sqoop1的环境搭建)。 首先,sqoop是基于Hadoop工作的,所以在这之前,确保你的Linux环境下,已经有可以正常工作的hadoop集群,当然伪分布式和完全分布式都可以。 其次,我们得下载一个sqoop的安全包,散仙在这里使用转载 2014-02-07 17:08:48 · 572 阅读 · 0 评论 -
Hadoop Applier
MySQL复制操作可以将数据从一个MySQL服务器(主)复制到其他的一个或多个MySQL服务器(从)。试想一下,如果从服务器不再局限为一个MySQL服务器,而是其他任何数据库服务器或平台,并且复制事件要求实时进行,是否可以实现呢? MySQL团队最新推出的 MySQL Applier for Hadoop(以下简称Hadoop Applier)旨在解决这一问题。 用途转载 2014-02-07 16:57:33 · 910 阅读 · 0 评论 -
hbase安装
本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。我将要安装的hbase是hbase-0.90.4版本,需要的hadoop是hadoop-0.20.2版本。1.单机安装将下载的hbase-0.90.4解压到相应的目录,如/home/zhangxin/hbase-0.90.4原创 2014-02-08 05:11:04 · 565 阅读 · 0 评论 -
Hbase分布式详细安装步骤
Hbase分布式详细安装步骤 Hbase(版本:0.20.6)安装注:自0.20.5以后版本集成了zookeeper,可匹配Hadoop0.20.2准备工作:二台机器上是这样的:都有一个coole的帐户,主目录是/home/coole两台机器(内存应在512以上,否则可能会出现计算极度缓慢的情况): 一台机器名:master IP:211.87.239.181转载 2014-02-08 06:02:33 · 458 阅读 · 0 评论 -
非常牛的hbase文章
一、 简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop转载 2014-02-08 14:35:42 · 731 阅读 · 0 评论 -
HBase的安装和简单测试
1. 修改HDFSS设置vi conf/hdfs-site.xml增加下面的设置,HBASE需要访问大量的文件 dfs.datanode.max.xcievers 40962. 设置NTP同步rpm -qa |grep ntp master用缺省配置 slaves: vi /etc/ntp.co转载 2014-02-08 06:29:54 · 584 阅读 · 0 评论 -
Hbase分布式详细安装步骤
Hbase分布式详细安装步骤 Hbase(版本:0.20.6)安装注:自0.20.5以后版本集成了zookeeper,可匹配Hadoop0.20.2准备工作:二台机器上是这样的:都有一个coole的帐户,主目录是/home/coole两台机器(内存应在512以上,否则可能会出现计算极度缓慢的情况): 一台机器名:master IP:211.87.239.181转载 2014-02-08 05:39:58 · 501 阅读 · 0 评论 -
hbase数据导入
使用命令bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns=HBASE_ROW_KEY,cf:a,cf:b,cf:c 需要指出的是源文件默认以” “为分割符,如果需要换成其它分割符,在执行时加上-Dimporttsv.separator=”,”,则变成了以”,”分割这个工具是使用map/redu转载 2014-02-08 10:24:24 · 723 阅读 · 0 评论 -
Ganglia安装详解(CentOS_5.5_Final版)
1. 安装rrdtool1.1. 安装依赖包Ø 拷贝CentOS软件包将CentOS安装光盘中的rpm包拷贝到/root/下,以备使用。Ø 安装zlib开发包rpm -ivh /root/CentOS/zlib-devel-1.2.3-3.x86_64.rpmØ 安装freetype开发包:rpm -ivh /root/CentOS/free转载 2014-02-09 11:31:40 · 662 阅读 · 0 评论 -
hbase bulkload
bulkload的方式导入数据是hbase的一项相当好的数据导入工具,特别适合做为新系统的历史数据导入工具!hbase本身也封装了相关的类importtsv,官网有简单的介绍http://hbase.apache.org/bulk-loads.html。 这里我要说明的是如何去快速定制一些适合自己应用的bulkload。 我们一般需要运行的数据有几种格式,txt转载 2014-02-09 12:21:07 · 510 阅读 · 0 评论 -
hbase笔记二
说在前面,本文部分内容来源于社区官网经过适度翻译,部分根据经验总结,部分是抄袭网络博文,(不一一列举引用,在此致歉)一并列在一起,本文的目的,希望能总结出一些有用的,应该注意到的东西,基本思路是先提出一个话题,在此话题内,把相关联的东西加进去,而不是单独分出章节单独介绍,虽然条理性欠差,但有利于后期根据关键词查找。 Apache HBase 是Hadoop database的简称,h转载 2014-02-09 12:51:25 · 492 阅读 · 0 评论 -
hbase基本操作
一,基本命令: 建表:create 'table','t1','t2' 也可以建表时加coulmn的属性如:create 'table',{NAME => 't1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION => 'LZO', TTL => '30000'转载 2014-02-09 12:56:01 · 522 阅读 · 0 评论 -
Sqoop的安装与使用
Sqoop是一个转换工具,用于在关系型数据库与HDFS之间进行数据转换。强大功能见下图以下操作就是使用sqoop在mysql和hdfs之间转换数据。1.安装我们使用的版本是sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz,打算安装在/usr/local目录下。首先就是解压缩,重命名为sqoop,然后在文件/etc/profile中设置转载 2014-02-09 19:14:37 · 518 阅读 · 0 评论 -
HBase性能优化方法总结
1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载转载 2014-02-09 12:26:19 · 492 阅读 · 0 评论 -
hbase笔记一
Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。 Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。 下面的内容基于我们已经安装好hadoop、hbase。 一、hbase shell 介绍转载 2014-02-09 12:50:20 · 391 阅读 · 0 评论 -
phoenix——提供hbase的sql操作的框架
hbase提供了海量数据的毫秒级查询。可见,hbase是个非常好的实时查询框架,缺点就是查询功能非常薄弱,仅限于通过行键查询。今天看到一个框架phoenix(直译做凤凰),非常美丽的框架,他提供了HBase的sql访问功能,可以使用标准的JDBC API操作去创建表、插入记录、查询数据。工作原理?phoenix的操作sql是通过jdbc发送到HBase的。phoenix的查询语句会转载 2014-02-09 19:16:02 · 642 阅读 · 0 评论 -
nagios极其简单安装配置教程
Server端安装 # 更新yum库wget http://packages.sw.be/rpmforge-release/rpmforge-release-0.5.2-2.el5.rf.i386.rpmrpm -ivh rpmforge-release-0.5.2-2.el5.rf.i386.rpm#安装nagiosyum -y install nagios转载 2014-02-10 12:53:36 · 515 阅读 · 0 评论 -
hbase笔记三
1、HMaster HMaster的任务前面已经说过了,两个大方向:一、管理Hbase Table的 DDL操作 二、region的分配工作,任务不是很艰巨,但是如果采用默认自动split region的方式, HMaster会稍微忙一些,负载不大,可适度对此进程做适量放大heap 的操作,但不可太大,因为更耗内存的是HRegionServer 2转载 2014-02-09 12:52:23 · 404 阅读 · 0 评论 -
hadoop深度实战
1 Linux虚拟环境搭建1.1 安装VmWare安装完可以看到vmnet1和vmnet8两块虚拟网卡1.2 安装linux虚拟机安装好以后检查应该可以上外网1.3 配置Linux虚拟机1.3.1 用root用户登录先用sudo passwdroot改root密码,然后在系统的"登录窗口"选项中设置允许本地管理员登陆就可以转载 2014-02-09 19:23:59 · 1159 阅读 · 0 评论