
hadoop
hxpjava1
毕业于武汉理工大学计算机系,12年开发架构经验,擅长java,k8s
展开
-
大数据入门:各种大数据技术介绍
转自:http://www.aboutyun.com/thread-7569-1-1.html大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。我们可以带着下面问题来阅读本文章:1....转载 2019-02-04 18:45:09 · 280 阅读 · 1 评论 -
RHadoop安装
*实验环境:*********************************************************************************hadoop集群(virtualBox虚拟机,CentOS6.4)hadoop1 192.168.100.171(hadoop master、secondaryname、zookeeper、hbase HMaste转载 2014-02-15 13:32:16 · 5223 阅读 · 2 评论 -
RHbase 命令
rhbase的相关函数:hb.compact.table hb.describe.table hb.insert hb.regions.tablehb.defaults hb.get hb.insert.data.frame hb.scanhb.delete hb.get.转载 2014-02-15 16:03:43 · 1652 阅读 · 0 评论 -
R实现MapReduce的协同过滤算法
由于rmr2的对hadoop操作有一些特殊性,代码实现有一定难度。需要深入学习的同学,请多尝试并思考key/value值的设计。本文难度为中高级。第三篇 R实现MapReduce的协同过滤算法,分为3个章节。1.基于物品推荐的协同过滤算法介绍2.R本地程序实现3.R基于Hadoop分步式程序实现每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明与代转载 2014-02-15 16:49:49 · 2541 阅读 · 0 评论 -
RHive
安装RHiveinstall.packages("RHive")library(RHive)Loading required package: rJavaLoading required package: RserveThis is RHive 0.0-7. For overview type ‘?RHive’.HIVE_HOME=/home/conan/hadoop/hive-0转载 2014-02-15 17:06:48 · 2480 阅读 · 0 评论 -
HBase client api例子集合-1
import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Delete;import原创 2014-02-24 12:14:58 · 2929 阅读 · 0 评论 -
hbase client api 例子-2
package example;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTabl原创 2014-02-25 15:19:18 · 1408 阅读 · 0 评论 -
HBase rest 和thrift java例子
package example2;import org.apache.hadoop.hbase.client.Get;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.rest.client.Client;import org.apache.hadoop.hbase.rest.clien原创 2014-02-26 15:27:44 · 5344 阅读 · 0 评论 -
Zebra and Pig
OverviewWith Pig you can load and store data in Zebra format. You can also take advantage of sorted Zebra tables for map-side groups and merge joins. When working with Pig keep in mind that, unl转载 2014-03-03 18:24:24 · 907 阅读 · 0 评论 -
pig 自定义函数和在eclipse里运行
package pig;import java.io.IOException;import org.apache.pig.EvalFunc;import org.apache.pig.data.Tuple;public class Upper extends EvalFunc { @Override public String exec(Tuple input) throws原创 2014-03-03 18:40:26 · 2049 阅读 · 0 评论 -
Pig Latin基础2 函数清单
Pig Latin作为一种语言,内在的函数清单亦不早少数,类别详细如下1:Eval Functionsa:AVG求平均值, 针对int,long,float,double,bytearray有效求平均值后,类型为long,long,double,double,double b:CONCAT将两个字段合并转载 2014-03-05 13:11:48 · 2499 阅读 · 0 评论 -
Hadoop pig进阶语法
本文来自与作者阅读 Programming Pig 所做的笔记,转载请注明出处 http://www.cnblogs.com/siwei1988/archive/2012/08/06/2624912.html。Pig Latin是一种数据流语言,变量的命名规则同java中变量的命名规则,变量名可以复用(不建议这样做,这种情况下相当与新建一个变量,同时删除原来的变量)A = load转载 2014-03-05 13:39:14 · 1340 阅读 · 0 评论 -
User Defined Functions
IntroductionWriting Java UDFsEval FunctionsLoad/Store FunctionsAdvanced TopicsWriting Python UDFsRegistering the UDFDecorators and SchemasExample ScriptsAdvanced Topics转载 2014-03-05 14:49:45 · 1847 阅读 · 0 评论 -
Hive 内建操作符与函数开发——深入浅出学Hive
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:关系运算Hi转载 2014-03-09 17:34:19 · 1214 阅读 · 0 评论 -
java客户端操作Hbase
java客户端操作Hbase 首先,配置好 hadoop+hbase 环境后,确保 hbase 正常启动。1. 搭建开发环境 1.1、运行 Eclipse,创建一个新的 Java工程“ HBaseHelloWorld”,右键项目根目录,选择 “ Properties”->“Java Build Path”->“Library”->“Add Ext转载 2017-01-19 16:42:03 · 614 阅读 · 0 评论 -
Hbase之批量数据写入
/** * Created by similarface on 16/8/16. */ import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;转载 2017-01-20 12:39:56 · 4965 阅读 · 1 评论 -
hbase所谓的三维有序存储
hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储。1.rowkey,我们知道rowkey是行的主键,而且hbase只能用个rowkey,或者一个rowkey范围即scan来查找数据。所以 rowkey的设计是至关重要的,关系到你应用层的查询效率。我们知道转载 2017-01-20 13:41:20 · 961 阅读 · 0 评论 -
storm 命令
Storm命令简介 提交Topologies命令格式:storm jar 【jar路径】 【拓扑包名.拓扑类名】 【拓扑名称】样例:storm jar /storm-starter.jar storm.starter.WordCountTopology wordcountTop#提交storm-starter.jar到远程集群,并启动wordc转载 2014-02-14 15:42:52 · 4183 阅读 · 0 评论 -
storm 0.9安装
安装Storm1. 下载Storm,选择一个0.9版本,解压到指定目录(所有机器)。http://storm-project.net/downloads.html 2. 将Storm/bin加入到$PATH中,编辑/etc/profile加入export PATH=$STORM_HOME/bin:$PATH使生效 $source /转载 2014-02-14 15:38:41 · 2320 阅读 · 0 评论 -
Impala Shell 和 Impala SQL
1、Impala 外部 Shell Impala外部Shell 就是不进入Impala内部,直接执行的ImpalaShell 例如通过外部Shell查看Impala帮助可以使用: $ impala-shell -h 这样就可以查看了; 再例如显示一个SQL语句的执行计划: $ impala-shell -p select count(*) from t_stu 下面是转载 2017-02-08 11:33:25 · 13881 阅读 · 0 评论 -
hbase 1.2 api 工具类
hbase之前版本有些api已经deprecated了,下面是1.2的api,没有deprecatedimport java.io.IOException;import java.util.ArrayList;import java.util.List;import java.util.concurrent.ExecutorService;import java.util.concu原创 2017-01-20 12:47:31 · 1615 阅读 · 2 评论 -
hbase命令
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录转载 2014-02-10 13:21:39 · 816 阅读 · 0 评论 -
hbase java api操作
HBase提供了对HBase进行一系列的管理涉及到对表的管理、数据的操作java api。常用的API操作有: 1、 对表的创建、删除、显示以及修改等,可以用HBaseAdmin,一旦创建了表,那么可以通过HTable的实例来访问表,每次可以往表里增加数据。 2、 插入数据 创建一个Put对象,在这个Put对象里可以指定要给哪个列增加数据,以及当前的时间戳等转载 2014-02-10 13:35:38 · 4141 阅读 · 0 评论 -
Apache Pig的一些基础概念及用法总结
转载必须注明出处:http://www.codelast.com/本文可以让刚接触pig的人对一些基础概念有个初步的了解。本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详尽的说明及转载 2014-02-10 13:58:48 · 3724 阅读 · 0 评论 -
hive函数参考手册
hive函数参考手册博客分类: hive nosql 官方定义见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相转载 2014-02-10 14:07:56 · 770 阅读 · 0 评论 -
java 访问hdfs
读数据使用hadoop url读取比较简单的读取hdfs数据的方法就是通过java.net.URL打开一个流,不过在这之前先要预先调用它的setURLStreamHandlerFactory方法设置为FsUrlStreamHandlerFactory(由此工厂取解析hdfs协议),这个方法只能调用一次,所以要写在静态块中。然后调用IOUtils类的copyBytes将hdfs数据流拷贝到标转载 2014-02-10 15:24:54 · 875 阅读 · 1 评论 -
zookeeper安装
Zookper是一种分布式的,开源的,应用于分布式应用的协作服务。它提供了一些简单的操作,使得分布式应用可以基于这些接口实现诸如同步、配置维护和分集群或者命名的服务。 网上有很多的安装教程,有些确实很不错,但总有一些比较坑的,误导了大家的安装,这次把自己亲身经历,安装的步骤和在安装中遇到的一些问题发布出来,供大家共同学习。首先,当然是下载zookeeper的安装包。下载地址:htt转载 2014-02-10 16:31:56 · 797 阅读 · 0 评论 -
hbase 安装
一、安装zookeeper在安装好分布式hadoop的环境下,继续安装zookeeper-3.4.5。$ wget http://124.202.164.9/download/32878722/41763290/4/gz/165/152/1353566847397_152/zookeeper-3.4.5.tar.gz $ tar -xf zookeeper-3.4转载 2014-02-10 16:55:56 · 2443 阅读 · 0 评论 -
pig 安装
Pig的安装Pig作为客户端程序运行,即使你准备在Hadoop集群上使用Pig,你也不需要在集群上做任何安装。Pig从本地提交作业,并和Hadoop进行交互。1)下载Pig前往http://mirror.bit.edu.cn/apache/pig/ 下载合适的版本,比如Pig 0.12.02)解压文件到合适的目录tar –xzf pig-0.12.03)设置环境变量转载 2014-02-11 15:39:00 · 1001 阅读 · 1 评论 -
HiveQL详解
HiveQL详解HiveQL是一种类似SQL的语言, 它与大部分的SQL语法兼容, 但是并不完全支持SQL标准, 如HiveQL不支持更新操作, 也不支持索引和事务, 它的子查询和join操作也很局限, 这是因其底层依赖于Hadoop云平台这一特性决定的, 但其有些特点是SQL所无法企及的。例如多表查询、支持create table as select和集成MapReduce脚本等, 本节转载 2014-02-13 09:45:05 · 1161 阅读 · 0 评论 -
kafka 安装
下载了最新的版本0.8.0 Beta1 Release下载地址:https://dist.apache.org/repos/dist/release/kafka/kafka-0.8.0-beta1-src.tgz 一、安装# tar xzvf kafka-0.8.0-beta1-src.tgz# cd kafka-0.8.0-beta1-src# ./sbt u转载 2014-02-13 13:57:57 · 7240 阅读 · 0 评论 -
kafka java示例
我使用的kafka版本是:0.7.2jdk版本是:1.6.0_20http://kafka.apache.org/07/quickstart.html官方给的示例并不是很完整,以下代码是经过我补充的并且编译后能运行的。Producer Code[java] view plaincopyimport java转载 2014-02-13 14:34:23 · 42055 阅读 · 8 评论 -
scala 开发spark程序
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。本文将介绍3个Scala Spark编程实例,分别是WordCount、TopK和SparkJoin,分别代表了Spark转载 2014-02-13 15:44:57 · 4900 阅读 · 0 评论 -
shark 安装
本文介绍在计算机集群上如何启动和运行Shark。如果对Amazon EC2上运行Shark感兴趣,请点击这里查看如何使用EC2脚本快速启动预先配置好的集群。依赖:注意:Shark是一个即插即用的工具,所以可以在现有的Hive数据仓库之上运行,不需要您对现有的部署做出任何修改。在集群上运行Shark需要一下几个外部组件:Scala 2.9.3Spark 0.7.2兼容转载 2014-02-14 11:28:24 · 4144 阅读 · 1 评论 -
spark 安装
环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3折腾了几天,终于把Spark 集群安装成功了,其实比hadoop要简单很多,由于网上搜索到的博客大部分都还停留在需要依赖mesos的版本,走了不少弯路。1. 安装 JDK 1.7yum search openjdk-develsudo yum insta转载 2014-02-13 23:25:48 · 19737 阅读 · 5 评论 -
写了一个从oracle导数据到hbase的多线程java程序,只要创建一个实体加上注解基本就可以导数据了
三个注解类:@Target(ElementType.FIELD)@Retention(RetentionPolicy.RUNTIME)public @interface Column { String family() ; String column() default ""; String oracle_column() default "";}@Target(Eleme原创 2017-01-23 13:11:57 · 1568 阅读 · 1 评论 -
HBase 常用Shell命令
进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)>whoami表的转载 2017-01-24 09:51:21 · 357 阅读 · 0 评论 -
hbase大规模数据写入的优化历程
业务背景:由于需要将ngix日志过滤出来的1亿+条用户行为记录存入Hbase数据库,以此根据一定的条件来提供近实时查询,比如根据用户id及一定的时间段等条件来过滤符合要求的若干行为记录,满足这一场景的技术包括:Solr,Elasticsearch,hbase等,在此选用了Hbase来实践。step 1 :直接hbase建表,然后读取记录文件逐条写入Hbase。由于hbase实际的写转载 2017-01-24 14:57:47 · 2074 阅读 · 0 评论 -
eclipse 下 hadoop debug 笔记
http://blog.youkuaiyun.com/huyu_hy/article/details/7857578#转载 2014-03-02 13:24:47 · 735 阅读 · 0 评论 -
hadoop1.2.1安装配置
环境:ubuntu13使用的用户为普通用户。如:用户rujdk安装略1、安装ssh(1)Java代码 sudo apt-get install openssh-server (2)配置ssh面密码登录Xml代码 $ ssh-keygen -t dsa -P '' -f ~/.ssh/转载 2014-03-01 13:36:44 · 6981 阅读 · 1 评论