Oozie123-优快云博客

翻译 HBase Metrics

HBase通过Hadoop metrics API统计指标，默认是10秒统计一次，可以把这些指标与Ganglia结合，也可以过滤某些指标或者扩展指标。1 指标设置HBase 0.95后，HBase附带了默认的指标配置或sink。编辑文件conf/hadoop-metrics2-hbase.properties配置region server的指标，重启改变了的region server使其生效。改变默

2015-12-01 16:54:11 3068

原创 nagios配置详解与集群监控

1 前言本系列文章主要讲述如何一步一步地监控大数据平台集群状况，接上篇文章nagios安装部署,本文主要阐述Nagios主要配置文件，Nagios运作流程，如何监控一个Zookeeper集群，并以一个该实例贯穿全文。2 Nagios文件结构2.1 监控端文件结构nagios/├── bin├── etc│ └── objects├── libexec├── sbin├── share

2015-11-27 20:56:38 2738

原创 HBase集群整体宕机报告(2016.7.13)

情景与操作记录 10点50分左右，接到运维人员通知，HBase集群B所有节点宕机，以下记录恢复集群的所有操作。登录HBase UI：http://192.168.3.146:60010/，无法登录登录hbase shell 查看：>status 'simple'5 dead servers所有regionserver确实都挂掉，迅速拉起所有的regionserverservice hb

2016-07-13 14:50:27 2070

原创 Spark集群搭建

Spark集群搭建1 Spark编译1.1 下载源代码git clone git://github.com/apache/spark.git -b branch-1.61.2 修改pom文件增加cdh5.0.2相关profile,如下：<profile> <id>cdh5.0.2</id> <properties> <hadoop.version>2.3.0-cdh5.0.2</

2016-07-12 18:36:06 916

原创经典文章汇总[持续更新]

[001] 各大互联网公司架构演进之路汇总

2016-06-23 08:55:34 813

原创欢迎使用优快云-markdown编辑器

要么不做，要么做好做一件事情，要么做好，要么不做。什么东西都想做，什么东西又浅尝辄止，那只是瞎忙，丝毫没有一点进步。做一件事情，时常提醒自己：你想得够全面了么？还有什么可以改进的？这样做是不是有些马虎眼了？

2016-06-22 20:14:47 492

原创 Hadoop/HBase下架节点

0 前言公司某些旧机器总是出现故障，需下架此台机器，该机器部署有regionserver与datanode服务。1 RegionServer下架[注：在即将下架节点上操作]bin/graceful_stop.sh hostname2 DataNode下架[注：在NameNode节点上操作]2.1 添加下架文件excludeglsx.hadoop315glsx.hadoop3192.2 配置hdfs

2016-03-22 11:31:38 1277

原创技术动向

1 新型数据库Kudu简介：新型存储系统，引入kudu主要是用来替换 HDFS+parquet,对HDFS与Apache HBase提供的功能进行补充。用途：提供快速的全量数据分析与实时处理功能；充分利用先进CPU与I/O资源；支持数据更新；简单、可扩展的数据模型参考： [1] http://www.aiweibang.com/yuedu/55602372.html [2] h

2016-03-16 09:10:32 513

原创 HBase requestsPerSecond到底是什么？

阅读源码得知，主要代码如下：long currentRequestCount = getTotalRequestCount();requestsPerSecond = (currentRequestCount - lastRequestCount) / ((currentTime - lastRan) / 1000.0);lastRequestCount = currentRequestCoun

2016-03-04 17:30:47 2865

原创 win7上使用eclipse阅读hadoop源码准备

win7上使用eclipse阅读hadoop源码准备：安装maven，protoc(http://www.aboutyun.com/thread-8212-1-1.html)获取源码进入hadoop-2.*-src\hadoop-maven-plugins，运行mvn install进入hadoop-2.*-src，运行mvn eclipse:eclipse -DskipTests进入ec

2016-03-03 11:26:19 574

转载 Linux下区分物理CPU、逻辑CPU和CPU核数

㈠概念 ① 物理CPU 实际Server中插槽上的CPU个数物理cpu数量，可以数不重复的 physical id 有几个 ② 逻辑CPU Linux用户对 /proc/cpu

2016-01-19 10:14:58 730

原创 JAVA注解

JAVA注解

2016-01-15 10:16:11 934 1

原创 Java调试技巧01(使用条件断点)

当某个变量为某值时，才进行调试，我们一般都会添加if控制代码，以助于调试，完成后再次删除控制代码，其实不用。以Eclipse为例，直接在对应行左击就可以打上断点，以下面代码为例：public class App { public static void main( String[] args ) { String temp = null; for (int

2016-01-04 17:59:08 799

原创 HBase shell中使用fliter

在hbase的命令行中，可以直接使用filter进行scan，命令如下所示：import org.apache.hadoop.hbase.filter.CompareFilterimport org.apache.hadoop.hbase.filter.SingleColumnValueFilterimport org.apache.hadoop.hbase.filter.SubstringCo

2016-01-04 17:41:43 818

原创 HBase体系结构04(Master)

1 思维导图2 小结Master主要用于：监控RegionServer：通过心跳获取哪些活着，哪些已经挂掉。监控Region：哪些在过渡状态，哪些过渡时间超过阀值，时间多长。Region分配：RegionServer挂了region如何迁移；region发生split时，如何分配。元数据修改：Table/ColumnFamily的增删改，Table启用，禁用；

2015-12-25 11:19:34 885

原创博客写作思路

真正的学习不是你看了多少本书，抄写多少行代码，而是在你需要此种知识，你却可以随时推演出结论。学习的最终目的是推理演绎，举一反三，能以最小代价学会新知识。如何才能真正地学习？只有一个字”悟”。以两套思路为例：整体–局部–整体学习新知识，先整体感知，然后细化，最后再汇总。初体验–求知–再体验–小结–升华根据主题，想想这东西是啥，能干啥，然后验证，对比小结，最后提出自己的想法。

2015-12-25 09:39:45 694

原创不为写博客而写博客

What(何种情境) 翻译了一段时间的参考HBase指南，也写了些篇技术博客，都是一种教科书板式写作方式，第一步干什么，第二步干什么等等,回头想想，除了遗留在博客中的几行笔记聊以自慰以外，记忆理解甚少，悲哉！！！Why(何之驱动)总是急功近利，只注重数量而忽略质量，数量总是能带来愉悦的假象，我要的不是笔记，而是一种想要想起就能想起的推演。How(如何改进)何为理解？理解不是你记下来多少行笔记，

2015-12-22 11:22:57 579

原创 HBase体系结构02(Client)

HBase Client通过查询hbase:meta表找到感兴趣的RegionServers，这些RegionServers服务于特定的行范围。找到region(s)后，Client联络服务此region(s)的RegionServer，而不是联络master来处理读写请求。当执行负载均衡或RegionServer死亡时，master就会将region(s)重新分配，Client就需要重新查询目录表

2015-12-04 09:14:12 845

原创 HBase体系结构01(Catalog Tables)

目录表hbase:meta存在于HBase表中，在HBase shell中list命令中会过滤掉，但实际和普通表无任何区别。1 -ROOT- -ROOT-表在HBase 0.96后被移除。-ROOT-表记录.META.表位置(现在叫hbase:meta)，-ROOT-表结构如下：key.MeTA. region key (.META.,,1)Valuesinfo:regioninfo (

2015-12-03 09:42:15 2067

原创 HBase体系结构00(Overview)

1 NoSQLHBase是一种NoSQL数据库，HBase实际上更像是数据存储而不是数据库，相比RDBMS它缺少列类型，二级索引，触发器以及高级的查询语言等。然而，HBase支持线性和模块化扩展，它有以下特性：读写强一致性：不是最终一致性，方便高速聚合计数。自动分片：HBase tables依据regions分布于集群，随着数据的增长，regions自动split和重新分布于集群。Region

2015-12-02 09:29:00 566

原创 nagios安装部署

1 前言HBase集群数据量越来越大了，故障也越来越频繁，为了有效地监控HBase集群的使用情况，先研究Nagios的使用，后续与Gangia或者JMX集成，达到很好地监控作用。2 Nagios简介Nagios可以监控本地或远程主机以及服务，更重要地是提供异常通知功能，方便第一时间通知运维人员系统的异常状况。 Nagios构架图如下：主要说明：Nagios本身并不提供监控功能，监控功能有Na

2015-11-26 00:06:56 918

转载 hbase性能监控

目前，淘宝的hbase监控平台上，主要借助ganglia来采集监控数据。采集到的监控数据会借助rrdtool开发库来解析数据，做进一步的处理，例如数据展现、报警触发、性能统计报表等等。采集的监控数据主要包括四个方面：某台机器OS层面上的数据，例如内存、磁盘、网络、load、网络流量等；某台regionserver（或是master）上的RPC请求，主要是RPC的处理平均时间和请求次数；某台regio

2015-11-25 10:40:54 3788

翻译 HBase性能调优之模式设计

可以转载，请注明：http://blog.youkuaiyun.com/oozie123。1 Number of Column Families目前还不能在两个及以上Column Families上运行良好，建议1个，参考On the number of column families。2 Key and Attribute Lengths尽可能短，另外使用压缩，参见Try to minimize row a

2015-11-25 09:55:50 1121

转载 Apache Ignite——新一代数据库缓存系统

将数据存储在缓存中能够显著地提高应用的速度，因为缓存能够降低数据在应用和数据库中的传输频率。Apache Ignite允许用户将常用的热数据储存在内存中，它支持分片和复制两种方式，让开发者可以均匀地将数据分布式到整个集群的主机上。同时，Ignite还支撑任何底层存储平台，不管是RDBMS、NoSQL，又或是HDFS。在集群配置好之后，数据集增加只需在Ignite集群中增加节点而不需要重启整个集群。节

2015-11-24 08:50:40 1060

原创 Hadoop 通用数据摄取框架：Gobblin

Gobblin 是 Hadoop 通用数据摄取框架，可以从各种数据源中提取，转换和加载海量数据。比如：数据库，rest APIs，filers，等等。Gobblin 处理日常规划任务需要所有数据摄取 ETLs，包括作业/任务规划，任务分配，错误处理，状态管理，数据质量检测，数据发布等等。Gobblin 通过同样的执行框架从不同数据源摄取数据，在同一个地方管理所有不同数据源的元数据。同时结合了其他特性

2015-11-23 08:32:29 1186

翻译 ZooKeeper在HBase中的运用

一个分布式HBase系统安装依赖于一个运行着的ZooKeeper集群，所有参与的节点和客户端必须能够正常访问运行着的ZooKeeper集群。HBase默认为你提供一个节点的ZooKeeper集群，它会伴随着HBase start/stop进程的启动/停止而启动/停止，当然你也可以运行自己的一个ZooKeeper集群，为了切换是否启用默认ZooKeeper集群，需在conf/hbase-env.sh中

2015-11-21 16:24:16 3568

翻译 HBase性能调优

欢迎转载，请注明：http://blog.youkuaiyun.com/oozie1231 操作系统1.1 内存内存，内存，内存，别让HBase挨饿。1.2 64-bit用64位平台(和64位的JVM)。1.3 交换区小心交换区，设置swappiness为0。2 网络避免由于网络原因降低Hadoop和HBase集群性能，最重要的是考虑我们使用的交换硬件，当集群规模增大到2~3倍时，可能造成严重问题。该着重

2015-11-19 21:59:42 1030

翻译容量规划和Region配置

欢迎转载，请注明：http://blog.youkuaiyun.com/oozie123 当我们规划HBase集群容量和执行初始配置时，有很多注意事项。合理配置我们得对HBase内部数据的处理有深入的理解。1 节点数和硬件/VM配置1.1物理数据大小你的数据在磁盘上的物理数据大小与逻辑数据大小截然不同，而且被下面选项影响:增加的HBase开销。keyvalue and keysize，每个keyvalu

2015-11-19 08:50:35 5957

原创 HBase集群无法读写数据

1 问题现象HBase集群于11.17晚无法写入数据，所有的同步至HBase的服务都无法写入HBase库。2 问题原因所有的写入服务都无法写入数据，排除应用本身的问题，考虑HBase集群本身出现问题。进入hbase shell，scan一下当中的表是否可以读取数据，结果命令卡住无法正常读取数据。重新启动HBase集群，查看 master节点日志，发现：由此，可到看到hbase:meta所在r

2015-11-18 16:23:00 3384

原创 Hadoop YARN中内存配置

主要参数RM● yarn.scheduler.minimum-allocation-mb 对每个Contaioner，向RM申请内存的最小配置，请求低于此配置，抛出InvalidResourceRequestException。 ● yarn.scheduler.maximum-allocation-mb 对每个Contaioner，向RM申请内存的最大配置，请求大于此配置，抛

2015-11-16 16:51:49 1752

转载 Yarn的JVM重用功能——uber

在文章开头，我想先做几点说明： 1、本文的内容来自我对Yarn的相应功能的理解和实践。而我对该部分功能的理解主要来自对Hadoop的开发者之前相应言论的分析，并且我也将我的分析发给了Hadoop community，并得到了Yarn的创始人兼架构师Arun Murthy的肯定回复。 2、本文中uber的配置部分，主要参考之前Hadoop开发者的言论。但是我当初看该言论的时候对一些细节有所疑惑，

2015-11-16 15:03:47 1092

原创 Hive提交任务内存不足

Application application_1445597112995_0009 failed 2 times due to AM Container for appattempt_1445597112995_0009_000002 exited with exitCode: 143 due to: Container [pid=20649,containerID=container_14455

2015-11-16 11:34:22 3328

翻译 Apache HBase Configuration

Apache HBase Configuration这一章节在getting started 章节的基础上，进一步阐述HBase配置。请仔细地阅读本章节，特别是那些能够保证你的HBase测试和部署正常运行，并防止数据丢失的先决条件。

2015-11-11 11:28:04 645

Oozie123的博客