
大数据
文章平均质量分 85
huimingBall
热衷于技术,从事大数据相关工作。
展开
-
ProtocolBuffer 结合 LZO在 Hadoop中的使用(一)
ProtocolBuffer结合LZO在 Hadoop中的使用(一)1.ProtocolBuffer首先介绍一下ProtocolBuffer吧,可以参考:Protocol Buffer官网Protocol buffers are a flexible, efficient, automated mechanism for serializing structured data – th原创 2012-09-27 12:00:15 · 1350 阅读 · 0 评论 -
Hadoop学习笔记(一)环境搭建
Hadoop学习笔记(一)环境搭建我使用的环境是:Ubuntu11.10下安装Hadoop1.0.0(单机伪分布式)安装sshapt-get install ssh 安装rsyncapt-get install rsync 配置ssh免密码登录ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_原创 2012-04-01 11:25:12 · 1450 阅读 · 0 评论 -
Spark资源
1,《Scala深入浅出实战经典》http://pan.baidu.com/s/1pJnAUr52,《Spark纯实战公益大讲坛》http://pan.baidu.com/s/1sLeVk3,《Docker公益大讲坛》http://pan.baidu.com/s/1hq0GztU4,《spark亚太研究院spark公益大讲堂》http://pan.baidu.com/s/1i30Ewsd原创 2016-01-13 00:14:27 · 522 阅读 · 0 评论 -
Hive中UDF、UDAF和UDTF使用
1.Hive中的内置函数org.apache.hadoop.hive.ql.exec.FunctionRegistry类中定义了Hive目前内置的自定义函数 registerGenericUDF("concat", GenericUDFConcat.class); registerUDF("substr", UDFSubstr.class, false); reg原创 2017-03-22 20:12:06 · 2295 阅读 · 0 评论 -
Kafka入门
1.安装与启动1.1zookeeper安装Kafka需要依赖Zookeeper才能运行。1)登录主机,执行以下命令,下载并解压Zookeeper$ cd /opt$ wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6原创 2017-03-30 19:57:02 · 783 阅读 · 0 评论 -
flume上报日志到kafka
1.flume安装参考:http://blog.youkuaiyun.com/lnho2015/article/details/520351451. 系统需求Flume需要Java 1.6及以上(推荐1.7),对Agent监控目录的读写权限。2. 下载软件包到Flume官网上http://flume.apache.org/download.html下载软件包,例如:wget "原创 2017-03-14 21:01:23 · 5784 阅读 · 0 评论 -
ES安装以及使用
1.安装java升级到jdk8,下载eshttps://www.elastic.co/downloads/elasticsearch解压es压缩包,启动es./bin/elasticsearch访问ES:http://localhost:9200/显示:{ "name" : "pleYB0j", "cluster_name" : "elasticsearch原创 2017-04-10 22:50:04 · 840 阅读 · 0 评论 -
Hive explain详解
使用explain关键字对Hive查询优化原创 2017-04-04 21:42:35 · 6546 阅读 · 2 评论 -
Druid入门
druid的安装教程原创 2017-04-02 23:52:58 · 8392 阅读 · 2 评论 -
hadoop 添加kerberos认证
hadoop 添加kerberos认证http://blog.chinaunix.net/uid-1838361-id-3243243.html转载 2013-03-27 09:47:53 · 1196 阅读 · 0 评论 -
Windows下安装Hadoop开发环境
Windows下安装Hadoop开发环境准备:1.Eclipse2.Java 6+3.Cygwin4.Hadoop1.安装Cygwin通过链接下载http://cygwin.com/setup.exe,打开exe文件,运行安装程序。 1.显示 Cygwin 欢迎屏幕。2.单击 Next 进入下一个屏幕,选择要执行的安装类型。3.单击 Install fr原创 2013-03-26 17:31:32 · 2899 阅读 · 0 评论 -
Hadoop源代码分析(二)IO结构
Hadoop源代码分析(二)IO结构本文并非完全原创,根据文章:http://caibinbupt.iteye.com/blog/277640由于Hadoop的MapReduce和HDFS都有通信的需求,需要对通信的对象进行序列化。Hadoop并没有采用Java的序列化,而是引入了它自己的系统。org.apache.hadoop.io中定义了大量的可序列化对象,他们都实现了转载 2013-04-02 13:26:30 · 988 阅读 · 0 评论 -
ProtocolBuffer 结合 LZO在 Hadoop中的使用(二)
ProtocolBuffer 结合 LZO在 Hadoop中的使用(二) 1.LZO介绍LZO是一种高压缩比和解压速度极快的编码, 特点是解压缩速度非常快。LZO是无损压缩,压缩后的数据能准确还原LZO是基于block分块的,允许数据被分解成chunk,能够被并行的解压安装可以参照这篇文章:LZO安装2.如何编写读取写出 protocolBuff原创 2012-09-28 01:13:53 · 3709 阅读 · 0 评论 -
Hadoop学习笔记(二)helloworld
(1)格式化HDFS执行格式化HDFS的命令行:[root@localhost hadoop-0.19.0]# bin/hadoop namenode -format格式化执行信息如下所示:10/08/01 19:04:02 INFO namenode.NameNode: STARTUP_MSG: /***************************************原创 2012-04-01 12:33:44 · 3306 阅读 · 0 评论 -
Guava 库整理
参考:http://codemunchies.com/2009/10/beautiful-code-with-google-collections-guava-and-static-imports-part-1/ (2,3,4)http://blog.publicobject.com更多用法参考http://ajoo.iteye.com/category/119082以前这转载 2012-10-16 23:17:38 · 1776 阅读 · 0 评论 -
Hadoop学习笔记(三)一个实例
Hadoop学习笔记(三)一个实例1.辅助类GenericOptionsParser,Tool和ToolRunner上一章使用了GenericOptionsParser这个类,它用来解释常用的Hadoop命令行选项,并根据需要,对Configuration对象设置相应的值。通常不直接使用GenericOptionsParser类,更方便的方法是:实现Tool接口,通过ToolRunner来原创 2012-10-17 00:37:19 · 6090 阅读 · 0 评论 -
ProtocolBuffer 结合 LZO在 Hadoop中的使用(三)
ProtocolBuffer 结合 LZO在 Hadoop中的使用(三) 1.自动生成Protocol buffer对象1、把protoc.exe文件复制到 c:\windows 目录中(呵呵,这样最省事),window7放在windows/system32下下载地址2、使用 protocol buffer 编译器编译 logFormat.proto 文件。打开命令行窗原创 2012-10-17 16:44:22 · 1486 阅读 · 0 评论 -
Hadoop 学习笔记(三)常用命令
Hadoop 学习笔记(三)常用命令进入HADOOP_HOME目录。执行sh bin/start-all.sh进入HADOOP_HOME目录。执行sh bin/stop-all.sh Usage: java FsShell [-ls ] [-lsr ] [-du ]原创 2013-03-04 16:40:19 · 4529 阅读 · 0 评论 -
Hadoop源代码分析(三)RPC
Hadoop源代码分析(三)RPC原文:http://caibinbupt.iteye.com/blog/280790介绍完org.apache.hadoop.io以后,我们开始来分析org.apache.hadoop.rpc。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。当我们讨论HDFS的,通信可能发生在:Cli转载 2013-04-02 13:33:27 · 907 阅读 · 0 评论 -
Hadoop源代码分析(一)源码结构
Hadoop源代码分析(一)源码结构本文并非完全原创,根据文章:http://caibinbupt.iteye.com/blog/262412的一些学习心得。首先给出源码包:功能分析:Dependencestool提供一些命令行工具,如DistCp,archivemapreduceHadoop的Map/Reduce实现filecach转载 2013-04-02 13:22:29 · 1267 阅读 · 0 评论 -
HiveSQL解析过程详解
HiveSQL解析过程详解转载 2017-04-05 23:45:35 · 1800 阅读 · 0 评论