- 博客(51)
- 收藏
- 关注
转载 HBase快照
什么是快照 快照就是一份元信息的合集,允许管理员恢复到表的先前状态,快照不是表的复制而是一个文件名称列表,因而不会复制数据。 完全快照恢复是指恢复到之前的“表结构”以及当时的数据,快照之后发生的数据不会恢复。快照就是一系列元数据信息集合,能够允许管理员将表恢复至生成快照时的状态。快照不是表...
2016-11-10 11:53:00
913
转载 hbase启动regionserver出现端口冲突
但是实际上 使用start-hbase.sh 脚本启动regionserver还是会报端口冲突问题,可能通过这个脚本启动程序存在问题。没有深究看源码。 该问题可以通过 使用单独的regionserver启动脚本程序启动regionserver来规避。 使用方法: bin/local-reg...
2016-11-09 14:57:00
634
转载 hbase启动 Could not find or load main class .usr.java.packages.lib.amd64:.usr.lib64:.lib64:
hbase启动的时候,提示找不到usr.java.packages.lib.amd64:.usr.lib64:.lib64 从提示可以看出来,hbase貌似找什么平台相关的二进制文件等等。看起来,像是java.library.path问题 看hbase启动命令脚本: 这里面从hado...
2016-11-09 14:53:00
636
转载 004 Nginx日志管理
每个虚拟主机,可以配置access_log来记录日志信息。不同的sever可以有不同的log access_log logs/host.access.log main 格式main。可以自定义其他格式。在http段可以自定义日志格式,例如,log_format main xxx...
2016-08-13 17:50:00
139
转载 003 Nginx虚拟主机配置
子进程个数,worker_processes ,个数等于CPU数*核数 Event{ worker_connectioins 设置一个子进程最大允许多少个连接} http{}段中的server是虚拟主机配置 listen 监听端口,80端口访问时候可以省略。 se...
2016-08-13 17:22:00
99
转载 002 Nginx信号
启动nginx之后,如果想平滑的停止,等操作,如何处理?通过信号。 nginx分成master进程和多个子进程,主进程不想用浏览器请求,而是管理和控制多个子进程, kill -INT 主进程pid 则杀死所有nginx进程。 TERM, INT 是紧急杀死nginx进程 QUIT 优...
2016-08-13 16:44:00
132
转载 001 Nginx的编译安装
wget下载 tar解压 yum install pcre pcre-dev, nginx依赖pcre实现重写 进去解压后目录 configure --prefix=/usr/local/nginx 指定安装目录 make && make install ...
2016-08-13 16:07:00
97
转载 Git安装
yum install git 编译安装的步骤是【4】: (1)首先先更新系统 sudo yum update (2)安装依赖的包 sudo yum install curl-devel expat-devel gettext-devel openssl-devel zlib-...
2016-07-27 14:48:00
122
转载 Heka编译安装
官方文档:http://hekad.readthedocs.io/en/v0.10.0/installing.html Prerequisites (all systems): CMake 3.0.0 or greaterhttp://www.cmake.org/cmake/...
2016-07-27 14:29:00
400
转载 让Heka支持lua的io操作和os操作
Heka本身编译之后,不支持lua的io操作,貌似是影响什么sandbox机制。详情,https://mail.mozilla.org/pipermail/heka/2015-November/000882.html。 Hrm. There's a *lot* of code and com...
2016-07-26 16:18:00
149
转载 Heka同一个文件滚动读取rolling read FilePollingInput
针对一个文件,周期性质的去读取内容,无buffer的读取,典型应用 1,内存使用情况读取 [hekad] maxprocs = 2 [MemStats] type = "FilePollingInput" ticker_interval = 1 file_path = "/proc/me...
2016-07-22 18:33:00
184
转载 Heka的一些计算过程数据存放目录
默认位置: /var/cache/hekad 包括读取kafka的offsets存储等等 转载于:https://my.oschina.net/weikan/blog/716358...
2016-07-22 18:23:00
146
转载 一个input配置多个decorder,生成多分数据,放到不同的地方,即一份数据,以不同的形式存储...
继续使用nginx input的例子。 decoder本省之间无法传递数据,但是可以多个同时被一个input使用,进而实现一份数据产生多个结果。 MultiDecoder 可以实现多个 [hekad] maxprocs = 2 #一个输入,读取nginx的log [TestWe...
2016-07-22 17:24:00
331
转载 Heka nginx input
负责解析nginx产生的log数据,分成access,error等不同的日志数据格式。这里只例举出access的日志数据。 180.153.206.18 - - [17/Jul/2016:00:00:04 +0800] "GET /static/bootstrap/bsie/js/bo...
2016-07-22 16:31:00
96
转载 ElasticSearch2.3版本启动后,外部无法通过head插件访问,机器内部却可以访问
es2.3启动以后,机器内部,都能正常查看和使用,但是在外部通过head等插件无法访问,原因在于es2.3 之后,使用了ipv6, 最好显示指定给一个ipv4的地址,这样外面就能够通过head访问了 ...
2016-07-22 09:53:00
269
转载 KafkaInput & esoutput
heka从kalka中读取数据。 配置: [hekad] maxprocs = 2 [KafkaInputExample] type = "KafkaInput" topic = "test" addrs = ["localhost:9092"] [RstEncoder] [LogO...
2016-07-21 17:44:00
360
转载 HttpInput
配置如下,httpinput用来搜集http请求连接返回的数据。 [hekad] maxprocs = 2 [HttpInput] url = "http://www.bejson.com/" ticker_interval = 5 success_severity = 6 erro...
2016-07-21 16:34:00
325
转载 Mapreduce RCFile写入和读取API示例
RCFile是FaceBook开发的高压缩比、高效读的行列存储结构。通常在Hive中可以直接对一张Text表使用insert-select转换,但有时希望使用Mapreduce进行RCFile的读写。 <dependency> <gr...
2016-07-14 18:06:00
127
转载 Spark与Flink:对比与分析
Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操作。用户也可以让Spark保留一个RDD在内存中,使其能在并行操作中被有效的重复使用。Flink是可扩展的批处理和流式数据处理的数据处理平...
2016-07-14 16:59:00
125
转载 Hive几种存储格式总结
hive文件存储格式 1.textfile textfile为默认格式 存储方式:行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive无法进行合并和拆分 2.sequencefile 二进制文件,以<key,value>的形式序列化到文件中 存储方式:行存储 可分割 ...
2016-07-09 08:37:00
930
转载 Sequencefile序列化(hadoop,hive等)
SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中...
2016-07-09 08:32:00
171
转载 将Avro数据转换为Parquet格式
摘要:本文主要测试将Avro数据转换为Parquet格式的过程并查看 Parquet 文件的 schema 和元数据。 准备 将文本数据转换为 Parquet 格式并读取内容,可以参考 Cloudera 的 MapReduce 例子:https://github.com/cloudera/p...
2016-07-09 08:17:00
512
转载 Parquet
Google 对于传说中3秒查询 1 PB 数据的 Dremel,有一篇论文:Dremel: Interactive Analysis of Web-Scale Datasetshttp://research.google.com/pubs/pub36632.html. 这篇论文基本上在描...
2016-07-09 08:16:00
221
转载 Hive AVRO数据存储格式
Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,当前最新版本1.3.3。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方...
2016-07-09 08:13:00
171
转载 Hive RCFile 数据存储格式
Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和...
2016-07-09 07:57:00
152
转载 Hive Parquet 数据存储格式
https://cwiki.apache.org/confluence/display/Hive/Parquet#Parquet-HiveQLSyntax Introduction Parquet (http://parquet.io/) is an ecosystem wide co...
2016-07-08 19:08:00
825
转载 Hive Json数据存储格式
https://cwiki.apache.org/confluence/display/Hive/Json+SerDe 数据以json的形式存放,一行一个json数据。 要是 {"field1":"data1","field2":100,"field3":"more data1",...
2016-07-08 18:21:00
711
转载 Hive Index
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Indexing Overview of Hive Indexes The goal of Hive indexing is to improve the s...
2016-07-08 17:01:00
154
转载 udf udaf udtf
一、UDF 1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式:JavaInteger/Stri...
2016-07-08 15:27:00
107
转载 HiveServer2 和 HiveServer
HiveServer is an optional service that allows a remoteclientto submit requests to Hive, using a variety of programming languages, and retrieve re...
2016-07-08 12:05:00
86
转载 Hive CLI beeline
未来替换hive脚本的最新使用方式。 HiveServer2提供了一个新的命令行工具Beeline,它是基于SQLLine CLI的JDBC客户端。关于SQLLine的的知识,可以参考这个网站:http://sqlline.sourceforge.net/#manual Beeline工作...
2016-07-08 11:53:00
199
转载 Hive Resources
Hive Resources 转载于:https://my.oschina.net/weikan/blog/708161
2016-07-08 10:44:00
177
转载 Hive CLI hive脚本的参数
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Cli Hive Command Line Options To get help, run "hive -H" or "hive --help". Us...
2016-07-08 10:42:00
128
转载 Hive CLI的一些命令
官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Commands 这些命令可以直接cli或者beeline里面执行。 quit exit Use quit or...
2016-07-08 10:11:00
101
转载 为何使用oozie coordinator
Oozie所支持工作流,工作流定义通过将多个Hadoop Job的定义按照一定的顺序组织起来,然后作为一个整体按照既定的路径运行。一个工作流已经定义了,通过启动该工作流Job,就会执行该工作流中包含的多个Hadoop Job,直到完成,这就是工作流Job的生命周期。 那么,现在我们有一个工作...
2016-07-07 11:27:00
128
转载 azkaban和oozie的一些区别
地址: http://azkaban.github.io/ http://oozie.apache.org/ 转载于:https://my.oschina.net/weikan/blo...
2016-06-28 22:21:00
301
转载 spark-graphx-outerJoinVertices
outerJoinVertices的作用:通过join将两个图的顶点属性进行汇总,因为是outjoin,可能左边的图的点,没有join上右边对应的点,这时候,这个函数给你了一个选择的判断。 定义: def outerJoinVertices[U, VD2](other: RDD[(Vert...
2016-06-28 16:20:00
389
转载 mapreduce如何获得文件的路径
通常的做法是通过inputSplit来获得,如下: InputSplit split = context.getInputSplit(); 但是,如果使用MultipleInputs的话,则需要进行转化,将TaggedInputSplit转成InputSplit,如下: ...
2016-06-13 13:57:00
525
转载 hbase pheonix安装和基本使用
1.下载对应版本,cdh目前还没有pheonix啊,使用社区版吧,切记版本要对应上。否则会出现,问题:如下, Call failed on IOExceptionorg.apache.hadoop.hbase.DoNotRetryIOException: org.apache.hadoop...
2016-05-31 15:53:00
230
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人