chengyuan2789-优快云博客

转载 HBase快照

什么是快照快照就是一份元信息的合集，允许管理员恢复到表的先前状态，快照不是表的复制而是一个文件名称列表，因而不会复制数据。完全快照恢复是指恢复到之前的“表结构”以及当时的数据，快照之后发生的数据不会恢复。快照就是一系列元数据信息集合，能够允许管理员将表恢复至生成快照时的状态。快照不是表...

2016-11-10 11:53:00 913

转载 hbase启动regionserver出现端口冲突

但是实际上使用start-hbase.sh 脚本启动regionserver还是会报端口冲突问题，可能通过这个脚本启动程序存在问题。没有深究看源码。该问题可以通过使用单独的regionserver启动脚本程序启动regionserver来规避。使用方法： bin/local-reg...

2016-11-09 14:57:00 634

转载 hbase启动 Could not find or load main class .usr.java.packages.lib.amd64:.usr.lib64:.lib64:

hbase启动的时候，提示找不到usr.java.packages.lib.amd64:.usr.lib64:.lib64 从提示可以看出来，hbase貌似找什么平台相关的二进制文件等等。看起来，像是java.library.path问题看hbase启动命令脚本：这里面从hado...

2016-11-09 14:53:00 636

转载 004 Nginx日志管理

每个虚拟主机，可以配置access_log来记录日志信息。不同的sever可以有不同的log access_log logs/host.access.log main 格式main。可以自定义其他格式。在http段可以自定义日志格式，例如，log_format main xxx...

2016-08-13 17:50:00 139

转载 003 Nginx虚拟主机配置

子进程个数，worker_processes ，个数等于CPU数*核数 Event{ worker_connectioins 设置一个子进程最大允许多少个连接} http{}段中的server是虚拟主机配置 listen 监听端口，80端口访问时候可以省略。 se...

2016-08-13 17:22:00 99

转载 002 Nginx信号

启动nginx之后，如果想平滑的停止，等操作，如何处理？通过信号。 nginx分成master进程和多个子进程，主进程不想用浏览器请求，而是管理和控制多个子进程， kill -INT 主进程pid 则杀死所有nginx进程。 TERM， INT 是紧急杀死nginx进程 QUIT 优...

2016-08-13 16:44:00 132

转载 001 Nginx的编译安装

wget下载 tar解压 yum install pcre pcre-dev， nginx依赖pcre实现重写进去解压后目录 configure --prefix=/usr/local/nginx 指定安装目录 make && make install ...

2016-08-13 16:07:00 97

转载 Git安装

yum install git 编译安装的步骤是【4】：（1）首先先更新系统 sudo yum update （2）安装依赖的包 sudo yum install curl-devel expat-devel gettext-devel openssl-devel zlib-...

2016-07-27 14:48:00 122

转载 Heka编译安装

官方文档：http://hekad.readthedocs.io/en/v0.10.0/installing.html Prerequisites (all systems): CMake 3.0.0 or greaterhttp://www.cmake.org/cmake/...

2016-07-27 14:29:00 400

转载让Heka支持lua的io操作和os操作

Heka本身编译之后，不支持lua的io操作，貌似是影响什么sandbox机制。详情，https://mail.mozilla.org/pipermail/heka/2015-November/000882.html。 Hrm. There's a *lot* of code and com...

2016-07-26 16:18:00 149

转载 Heka同一个文件滚动读取rolling read FilePollingInput

针对一个文件，周期性质的去读取内容，无buffer的读取，典型应用 1，内存使用情况读取 [hekad] maxprocs = 2 [MemStats] type = "FilePollingInput" ticker_interval = 1 file_path = "/proc/me...

2016-07-22 18:33:00 184

转载 Heka的一些计算过程数据存放目录

默认位置： /var/cache/hekad 包括读取kafka的offsets存储等等转载于:https://my.oschina.net/weikan/blog/716358...

2016-07-22 18:23:00 146

转载一个input配置多个decorder，生成多分数据，放到不同的地方，即一份数据，以不同的形式存储...

继续使用nginx input的例子。 decoder本省之间无法传递数据，但是可以多个同时被一个input使用，进而实现一份数据产生多个结果。 MultiDecoder 可以实现多个 [hekad] maxprocs = 2 #一个输入，读取nginx的log [TestWe...

2016-07-22 17:24:00 331

转载 Heka nginx input

负责解析nginx产生的log数据，分成access，error等不同的日志数据格式。这里只例举出access的日志数据。 180.153.206.18 - - [17/Jul/2016:00:00:04 +0800] "GET /static/bootstrap/bsie/js/bo...

2016-07-22 16:31:00 96

转载 ElasticSearch2.3版本启动后，外部无法通过head插件访问，机器内部却可以访问

es2.3启动以后，机器内部，都能正常查看和使用，但是在外部通过head等插件无法访问，原因在于es2.3 之后，使用了ipv6，最好显示指定给一个ipv4的地址，这样外面就能够通过head访问了 ...

2016-07-22 09:53:00 269

转载 KafkaInput & esoutput

heka从kalka中读取数据。配置： [hekad] maxprocs = 2 [KafkaInputExample] type = "KafkaInput" topic = "test" addrs = ["localhost:9092"] [RstEncoder] [LogO...

2016-07-21 17:44:00 360

转载 HttpInput

配置如下，httpinput用来搜集http请求连接返回的数据。 [hekad] maxprocs = 2 [HttpInput] url = "http://www.bejson.com/" ticker_interval = 5 success_severity = 6 erro...

2016-07-21 16:34:00 325

转载 Mapreduce RCFile写入和读取API示例

RCFile是FaceBook开发的高压缩比、高效读的行列存储结构。通常在Hive中可以直接对一张Text表使用insert-select转换，但有时希望使用Mapreduce进行RCFile的读写。 <dependency> <gr...

2016-07-14 18:06:00 127

转载 Spark与Flink：对比与分析

Spark是一种快速、通用的计算集群系统，Spark提出的最主要抽象概念是弹性分布式数据集(RDD)，它是一个元素集合，划分到集群的各个节点上，可以被并行操作。用户也可以让Spark保留一个RDD在内存中，使其能在并行操作中被有效的重复使用。Flink是可扩展的批处理和流式数据处理的数据处理平...

2016-07-14 16:59:00 125

转载 Hadoop中自定义类型的序列化说明

TBD 转载于:https://my.oschina.net/weikan/blog/708765

2016-07-09 08:47:00 126

转载 Hive几种存储格式总结

hive文件存储格式 1.textfile textfile为默认格式存储方式：行存储磁盘开销大数据解析开销大压缩的text文件 hive无法进行合并和拆分 2.sequencefile 二进制文件,以<key,value>的形式序列化到文件中存储方式：行存储可分割 ...

2016-07-09 08:37:00 930

转载 Sequencefile序列化（hadoop，hive等）

SequenceFile是Hadoop API 提供的一种二进制文件，它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中...

2016-07-09 08:32:00 171

转载将Avro数据转换为Parquet格式

摘要：本文主要测试将Avro数据转换为Parquet格式的过程并查看 Parquet 文件的 schema 和元数据。准备将文本数据转换为 Parquet 格式并读取内容，可以参考 Cloudera 的 MapReduce 例子：https://github.com/cloudera/p...

2016-07-09 08:17:00 512

转载 Parquet

Google 对于传说中3秒查询 1 PB 数据的 Dremel，有一篇论文：Dremel: Interactive Analysis of Web-Scale Datasetshttp://research.google.com/pubs/pub36632.html. 这篇论文基本上在描...

2016-07-09 08:16:00 221

转载 Hive AVRO数据存储格式

Avro（读音类似于[ævrə]）是Hadoop的一个子项目，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人，膜拜）牵头开发，当前最新版本1.3.3。Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。它的主要特点有：支持二进制序列化方...

2016-07-09 08:13:00 171

转载 Hive RCFile 数据存储格式

Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和...

2016-07-09 07:57:00 152

转载 Hive Parquet 数据存储格式

https://cwiki.apache.org/confluence/display/Hive/Parquet#Parquet-HiveQLSyntax Introduction Parquet (http://parquet.io/) is an ecosystem wide co...

2016-07-08 19:08:00 825

转载 Hive Json数据存储格式

https://cwiki.apache.org/confluence/display/Hive/Json+SerDe 数据以json的形式存放，一行一个json数据。要是 {"field1":"data1","field2":100,"field3":"more data1",...

2016-07-08 18:21:00 711

转载 Hive Index

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Indexing Overview of Hive Indexes The goal of Hive indexing is to improve the s...

2016-07-08 17:01:00 154

转载 udf udaf udtf

一、UDF 1、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括： a）文件格式：Text File，Sequence File b）内存中的数据格式：JavaInteger/Stri...

2016-07-08 15:27:00 107

转载 HiveServer2 和 HiveServer

HiveServer is an optional service that allows a remoteclientto submit requests to Hive, using a variety of programming languages, and retrieve re...

2016-07-08 12:05:00 86

转载 Hive CLI beeline

未来替换hive脚本的最新使用方式。 HiveServer2提供了一个新的命令行工具Beeline，它是基于SQLLine CLI的JDBC客户端。关于SQLLine的的知识，可以参考这个网站：http://sqlline.sourceforge.net/#manual Beeline工作...

2016-07-08 11:53:00 199

转载 Hive Resources

Hive Resources 转载于:https://my.oschina.net/weikan/blog/708161

2016-07-08 10:44:00 177

转载 Hive CLI hive脚本的参数

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Cli Hive Command Line Options To get help, run "hive -H" or "hive --help". Us...

2016-07-08 10:42:00 128

转载 Hive CLI的一些命令

官方文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Commands 这些命令可以直接cli或者beeline里面执行。 quit exit Use quit or...

2016-07-08 10:11:00 101

转载为何使用oozie coordinator

Oozie所支持工作流，工作流定义通过将多个Hadoop Job的定义按照一定的顺序组织起来，然后作为一个整体按照既定的路径运行。一个工作流已经定义了，通过启动该工作流Job，就会执行该工作流中包含的多个Hadoop Job，直到完成，这就是工作流Job的生命周期。那么，现在我们有一个工作...

2016-07-07 11:27:00 128

转载 azkaban和oozie的一些区别

地址： http://azkaban.github.io/ http://oozie.apache.org/ 转载于:https://my.oschina.net/weikan/blo...

2016-06-28 22:21:00 301

转载 spark-graphx-outerJoinVertices

outerJoinVertices的作用：通过join将两个图的顶点属性进行汇总，因为是outjoin，可能左边的图的点，没有join上右边对应的点，这时候，这个函数给你了一个选择的判断。定义： def outerJoinVertices[U, VD2](other: RDD[(Vert...

2016-06-28 16:20:00 389

转载 mapreduce如何获得文件的路径

通常的做法是通过inputSplit来获得，如下： InputSplit split = context.getInputSplit(); 但是，如果使用MultipleInputs的话，则需要进行转化，将TaggedInputSplit转成InputSplit，如下： ...

2016-06-13 13:57:00 525

转载 hbase pheonix安装和基本使用

1.下载对应版本，cdh目前还没有pheonix啊，使用社区版吧，切记版本要对应上。否则会出现，问题：如下， Call failed on IOExceptionorg.apache.hadoop.hbase.DoNotRetryIOException: org.apache.hadoop...

2016-05-31 15:53:00 230

空空如也

空空如也