code_GK-优快云博客

原创 HBase协处理器加载过程（1.2）

之前写过HBase协处理器的一些原理和使用，基本上都是官方文档和官方的博客翻过来的，知道了怎么写，怎么用。现在需要思考的一个问题是，自己写的协处理器是怎么加载成功并调用的。一、首先来看ObserverCoprocessor:1.观察者协处理器的静态加载的配置是在hbase-site.xml中配置如下属性：通过hbase.coprocessor.region.clas

2017-08-18 15:20:58 1166

原创 Apache Tephra -使用

一．下载源代码并编译打包：gitclone https://git-wip-us.apache.org/repos/asf/incubator-tephra.gitcd incubator-tephramvn clean package二．编译完成后，在tephra-distribution/target/ directory包下拿到 tephra-.

2017-07-21 11:15:30 1230

原创 Apache Tephra-简介

What is Apache Tephra (TM) Apache Tephra在Apache HBase等分布式数据存储上提供全局一致的事务。虽然HBase提供了与row或region级ACID操作的强大一致性，但是它牺牲了跨区域和跨表的一致性来支持可伸缩性。这种权衡要求应用程序开发人员在修改跨越区域边界时，处理确保一致性的复杂性。通过为跨地区、表或多个rpc的全球事务提供支持，Teph

2017-07-20 17:49:14 2106

原创数据结构与算法（一）--基本概念

- 数据结构：是相互之间存在一种或多种特定关系的数据元素的集合。- 算法：算法是解决特定问题求解步骤的描述。在计算机中的表现为指令的有限序列，并且每条指令表示一个或多个操作。2.1 算法的五个基本特征：输入，输出，有穷性，确定性和可行性。有穷性：指算法在执行有限的步骤之后，自动结束而不会出现无限循环，并且每一个步骤在可接受的时间内完成。确定性：算法的每一个步骤都具有确定的含义，不会出现二义性

2017-07-19 16:05:32 712

原创 HBase Thrift

1.Thrift 架构图Thrift 包含一个完整的堆栈结构用于构建客户端和服务器端。下图描绘了 Thrift 的整体架构。如图所示，图中黄色部分是用户实现的业务逻辑，褐色部分是根据 Thrift 定义的服务接口描述文件生成的客户端和服务器端代码框架，红色部分是根据 Thrift 文件生成代码实现数据的读写操作。红色部分以下是 Thrift 的传输体系、协议以及底层 I/O 通

2017-07-12 15:28:57 895

转载 Hive SQL 解析过程

HiveSQL解析过程详解Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对

2017-07-04 16:09:42 2182

原创 HBase Shell命令（1.2官方文档）

hbase shell 主要分类有6种 #####General HBase shell commands 查看集群状态 #status后面可以跟不同的参数 status status 'simple' status 'summary' //默认的 status 'detailed' hbase(main):015:0> status 1 active master, 1

2017-07-03 16:44:18 2361

原创 HBase数据模型（1.2官方文档）

在hbase中，数据被存储在行列构成的表中，这听起来像是传统的RDBMS，但实际上，用传统RDBMS来类比hbase的数据模型没有啥意思。不如把hbase的data model想象成多维map。hbase术语table：一个表包含很多行，Stringrow ：always byte array一个row包含一个rowkey 和至少一个columnrow 按照rowkey的字典序排列，这也是为

2017-07-03 16:36:52 810

原创 HBase协处理器（1.2官方文档）

HBase CoprocessorHBase Coprocessor是根据Google BigTable的coprocessor实现来建模的。 coprocessor框架提供了在管理数据的RegionServer上直接运行定制代码的机制。我们正在努力消除HBase的实现和BigTable的架构之间的差距。资源链接：1. Mingjie Lai’s blogpost

2017-06-30 11:27:02 2009

原创 HBase性能调优（1.2官方文档）

HBase性能调优一．操作系统：1.内存：内存尽可能的大，不要饿着HBase。2.64-bit使用64位的操作系统。3.Swapping当心交换。swappiness设置为0。 Linux 移动那些一段时间没有被访问的内存页到 swap 空间，即使它由足够可用的内存。这叫做 swap out。换一句话说，从 swap 空间读 swapped out 的数据到内

2017-06-29 11:42:05 6556

原创 Linux Shell脚本中，远程调用脚本或命令，并使后台执行

split_to_array $KAFKA_hosts ","for node in ${array[@]}do echo "正在启动kafka服务" java -cp .:$BEH_HOME/script/base/scp/lib/*:$BEH_HOME/script/base/scp/classes com/bonc/SSHUtil -h $node -u h

2017-05-19 17:41:11 2247

原创测试shell中使用map的小demo

用于修改hadoop的配置文件#!/bin/bashdfs_namenode_name_dir=/opt/beh/data/hadoop/namenodedfs_nameservices=behdfs_blocksize=268435456yarn_scheduler_minimum_allocation_mb=2048declare -A map=(["dfs.namenode.name

2017-05-18 17:47:09 1060

原创 eclipse安装shellEd

1.安装“man-page viewer”插件Help->Install New Software name: man-page viewer http://download.eclipse.org/technology/linuxtools/updates-nightly/2.安装shellEdHelp->Install New Software name: shellEd

2017-05-04 10:22:13 2513

原创 Linux yum报错以及虚拟机网络配置

今天在使用yum安装软件的时候出现问题：第一次报错：“Couldn’t resolve host ‘centos.ustc.edu.cn’”网上查是因为DNS的配置有问题，于是在 /etc/sysconfig/network-scripts/ifcfg-eth0 加入了两行配置DNS1=8.8.8.8 DNS2=8.8.4.4然后重启网络： service network

2017-04-28 14:11:39 4614

原创 kafka （java API demo）

版本：kafka0.10.2Producer API 生产者API允许应用程序发送数据流到kafka集群中的topic。介绍怎么使用producer的例子在这个文档里javadocs 如果你使用maven构建工程的话，要使用producer，你需要在pom文件添加下面的依赖： <dependency> <groupId>org.apache.kafka</

2017-04-06 16:30:20 2325

linux 内存优化：1>. /proc是一个虚拟文件系统，我们可以通过对它的读写操作作为与kernel实体间进行通信的一种手段。也就是说可以通过修改/proc中的文件，来对当前kernel的行为做出调整。也就是说我们可以通过调整/proc/sys/vm/drop_caches来释放内存。2>. 关于drop_caches的官方说明如下： Writing to this file causes t

2017-04-06 12:50:58 814

原创 linux命令随笔（5）

记一个快速拿到kafka版本号的命令：find ./libs/ -name *kafka_* | head -1 | grep -o ‘\kafka[^\n]*’

2017-04-05 16:50:39 501

原创 linux命令随笔（4）

查看端口监听情况：netstat –nlpt如图：可以看到监听的程序名和进程id~

2017-04-01 16:55:47 621

原创 linux命令随笔（3）

ls / Vim**批量注释**方法一ctrl+v 进入列编辑模式,向下或向上移动光标,把需要注释的行的开头标记起来,然后按大写的I(shift+i),再插入注释符,比如”//”,再按Esc,就会全部注释了批量去掉注释ctrl+v,进入列编辑模式,横向选中列的个数(如”//”注释符号,需要选中两列),然后按d, 就会删除注释符号方法二使用下面命令在指定的行首添加注释： :起始行号,结束行号s/^/

2017-04-01 16:54:03 422

原创 linux命令随笔（2）

LINUX通过下面的命令可以开启允许对外访问的网络端口：/sbin/iptables -I INPUT -p tcp –dport 8000 -j ACCEPT #开启8000端口/etc/rc.d/init.d/iptables save #保存配置/etc/rc.d/init.d/iptables restart #重启服务查看端口是否已经开放/etc/init.d/iptables statu

2017-04-01 16:52:55 455

原创 linux命令随笔（1）

wcwc -l filename 报告行数wc -c filename 报告字节数wc -m filename 报告字符数wc -w filename 报告单词数

2017-04-01 16:51:28 469

原创 sqoop1.4.6命令使用（一）

#### 列出所有数据库（可用于测试连接）sqoop-list-databases --connect jdbc:mysql://test104:3306 --username root --password 123456#### 列出所有表sqoop-list-tables --connect jdbc:mysql://test104:3306/sqoop --username root --

2017-04-01 16:14:01 5088 1

原创 sqoop1.4.6安装部署

安装部署环境Hadoop 2.7.3 jdk1.8mysql 5.6sqoop-1.4.6-cdh5.7.5.tarsqoop安装1.解压 sqoop-1.4.6-cdh5.7.5.tar 至/opt/behApache/core 重命名为sqoop2.拷贝mysql的jdbc驱动包 mysql-connector-java-5.1.30.jar 到sqoop/lib目录下3.配置环境变量expor

2017-04-01 16:13:35 583

转载 flume安装使用教程

1. flume概述1.1. flume概念1.1.1. flume概念flume是分布式的，可靠的，高可用的，用于对不同来源的大量的日志数据进行有效收集、聚集和移动，并以集中式的数据存储的系统。flume目前是apache的一个顶级项目。1.1.2. 系统需求flume需要java运行环境，要求java1.6以上.1.2. 下载

2017-04-01 15:57:36 3367

转载 CentOS 6.5系统安装配置图解教程(详细图文)

说明：截止目前CentOS 6.x最新版本为CentOS 6.5，下面介绍CentOS 6.5的具体安装配置过程服务器相关设置如下：操作系统：CentOS 6.5 64位IP地址：192.168.21.129网关：192.168.21.2DNS：8.8.8.8 8.8.4.4备注：CentOS 6.5系统镜像有32位和64位两个版本，生产服务器如果是大内存（4G以

2017-04-01 15:23:37 514

原创 hadoop is not allowed to impersonate hadoop

原因：用户代理未生效。检查core-site.xml文件是否正确配置。<property> <name>hadoop.proxyuser.hadoop.hosts</name> <value>*</value></property><property> <name>hadoop.proxyuser.hadoop.groups</name> <value>hadoop</value>

2017-03-31 14:33:19 9224 3

原创 spark1.2源码编译

为什么要编译源码呢？要搞hive on spark。。。1.CHD不好用，缺jar包啊2.hive1.1的 pom文件写了只支持spark1.23.Apache版本的部署包有-Phive编译，不能用简单粗暴的说下载源码包开始编译：1.使用这个命令：mvn -Pyarn -Phadoop-2.6 -Dscala-2.11 -DskipTests clean package官网只支持参数hadoop版

2017-03-31 14:28:21 498

原创 kafka 0.10.2 快速入门（译）

Step 1: 下载代码下载0.10.2.0版本并且解压它。> tar -xzf kafka_2.10-0.10.2.0.tgz> mv kafka_2.10-0.10.2.0 kafka> cd kafka Step 2: 启动服务运行kafka需要使用Zookeeper，所以你需要先启动Zookeeper，如果你没有Zookeeper，你可以使用kafka自带打包和配置好的Zooke

2017-03-31 14:28:16 2043

原创 spark sql with hive

spark standalonespark-1.5.0-bin-hadoop2.6spark-env.sh配置export SPARK_MASTER_IP=172.16.31.11export SPARK_MASTER_PORT=7077export SPARK_WORKER_CORES=1export SPARK_WORDER_INSTANCES=1export SPARK_WORK

2017-03-31 14:28:13 885

转载 How to Build a Scalable ETL Pipeline with Kafka Connect（转）

Apache Kafka is a high-throughput distributed message system that is being adopted by hundreds of companies to manage their real-time data. Companies use Kafka for many applications (real time stream

2017-03-15 16:47:23 586

GK_kk的博客