- 博客(30)
- 收藏
- 关注
原创 HBase协处理器加载过程(1.2)
之前写过HBase协处理器的一些原理和使用,基本上都是官方文档和官方的博客翻过来的,知道了怎么写,怎么用。现在需要思考的一个问题是,自己写的协处理器是怎么加载成功并调用的。一、首先来看ObserverCoprocessor:1.观察者协处理器的静态加载的配置是在hbase-site.xml中配置如下属性:通过hbase.coprocessor.region.clas
2017-08-18 15:20:58
1150
原创 Apache Tephra -使用
一. 下载源代码并编译打包:gitclone https://git-wip-us.apache.org/repos/asf/incubator-tephra.gitcd incubator-tephramvn clean package二. 编译完成后,在tephra-distribution/target/ directory包下拿到 tephra-.
2017-07-21 11:15:30
1203
原创 Apache Tephra-简介
What is Apache Tephra (TM) Apache Tephra在Apache HBase等分布式数据存储上提供全局一致的事务。虽然HBase提供了与row或region级ACID操作的强大一致性,但是它牺牲了跨区域和跨表的一致性来支持可伸缩性。这种权衡要求应用程序开发人员在修改跨越区域边界时,处理确保一致性的复杂性。通过为跨地区、表或多个rpc的全球事务提供支持,Teph
2017-07-20 17:49:14
2086
原创 数据结构与算法(一)--基本概念
- 数据结构:是相互之间存在一种或多种特定关系的数据元素的集合。- 算法:算法是解决特定问题求解步骤的描述。在计算机中的表现为指令的有限序列,并且每条指令表示一个或多个操作。2.1 算法的五个基本特征:输入,输出,有穷性,确定性和可行性。有穷性:指算法在执行有限的步骤之后,自动结束而不会出现无限循环,并且每一个步骤在可接受的时间内完成。确定性:算法的每一个步骤都具有确定的含义,不会出现二义性
2017-07-19 16:05:32
697
原创 HBase Thrift
1.Thrift 架构图Thrift 包含一个完整的堆栈结构用于构建客户端和服务器端。下图描绘了 Thrift 的整体架构。如图所示,图中黄色部分是用户实现的业务逻辑,褐色部分是根据 Thrift 定义的服务接口描述文件生成的客户端和服务器端代码框架,红色部分是根据 Thrift 文件生成代码实现数据的读写操作。红色部分以下是 Thrift 的传输体系、协议以及底层 I/O 通
2017-07-12 15:28:57
856
转载 Hive SQL 解析过程
HiveSQL解析过程详解Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的 咨询和自己的努力,在解决这些问题的同时我们对
2017-07-04 16:09:42
2158
原创 HBase Shell命令(1.2官方文档)
hbase shell 主要分类有6种 #####General HBase shell commands 查看集群状态 #status后面可以跟不同的参数 status status 'simple' status 'summary' //默认的 status 'detailed' hbase(main):015:0> status 1 active master, 1
2017-07-03 16:44:18
2328
原创 HBase数据模型(1.2官方文档)
在hbase中,数据被存储在行列构成的表中,这听起来像是传统的RDBMS,但实际上,用传统RDBMS来类比hbase的数据模型没有啥意思。不如把hbase的data model想象成多维map。hbase术语table:一个表包含很多行,Stringrow :always byte array一个row包含一个rowkey 和至少一个columnrow 按照rowkey的字典序排列,这也是为
2017-07-03 16:36:52
784
原创 HBase协处理器(1.2官方文档)
HBase CoprocessorHBase Coprocessor是根据Google BigTable的coprocessor实现来建模的。 coprocessor框架提供了在管理数据的RegionServer上直接运行定制代码的机制。我们正在努力消除HBase的实现和BigTable的架构之间的差距。 资源链接:1. Mingjie Lai’s blogpost
2017-06-30 11:27:02
1987
原创 HBase性能调优(1.2官方文档)
HBase性能调优一. 操作系统:1.内存:内存尽可能的大,不要饿着HBase。2.64-bit使用64位的操作系统。3.Swapping当心交换。swappiness设置为0。 Linux 移动那些一段时间没有被访问的内存页到 swap 空间,即使它由足够可用的内存。这叫做 swap out。换一句话说,从 swap 空间读 swapped out 的数据到内
2017-06-29 11:42:05
6517
原创 Linux Shell脚本中,远程调用脚本或命令,并使后台执行
split_to_array $KAFKA_hosts ","for node in ${array[@]}do echo "正在启动kafka服务" java -cp .:$BEH_HOME/script/base/scp/lib/*:$BEH_HOME/script/base/scp/classes com/bonc/SSHUtil -h $node -u h
2017-05-19 17:41:11
2223
原创 测试shell中使用map的小demo
用于修改hadoop的配置文件#!/bin/bashdfs_namenode_name_dir=/opt/beh/data/hadoop/namenodedfs_nameservices=behdfs_blocksize=268435456yarn_scheduler_minimum_allocation_mb=2048declare -A map=(["dfs.namenode.name
2017-05-18 17:47:09
1047
原创 eclipse安装shellEd
1.安装“man-page viewer”插件Help->Install New Software name: man-page viewer http://download.eclipse.org/technology/linuxtools/updates-nightly/2.安装shellEdHelp->Install New Software name: shellEd
2017-05-04 10:22:13
2500
原创 Linux yum报错以及虚拟机网络配置
今天在使用yum安装软件的时候出现问题:第一次报错:“Couldn’t resolve host ‘centos.ustc.edu.cn’”网上查是因为DNS的配置有问题,于是在 /etc/sysconfig/network-scripts/ifcfg-eth0 加入了两行配置DNS1=8.8.8.8 DNS2=8.8.4.4然后重启网络: service network
2017-04-28 14:11:39
4580
原创 kafka (java API demo)
版本:kafka0.10.2Producer API 生产者API允许应用程序发送数据流到kafka集群中的topic。 介绍怎么使用producer的例子在这个文档里javadocs 如果你使用maven构建工程的话,要使用producer,你需要在pom文件添加下面的依赖: <dependency> <groupId>org.apache.kafka</
2017-04-06 16:30:20
2310
转载 linux 内存优化
linux 内存优化:1>. /proc是一个虚拟文件系统,我们可以通过对它的读写操作作为与kernel实体间进行通信的一种手段。也就是说可以通过修改/proc中的文件,来对当前kernel的行为做出调整。也就是说我们可以通过调整/proc/sys/vm/drop_caches来释放内存。2>. 关于drop_caches的官方说明如下: Writing to this file causes t
2017-04-06 12:50:58
789
原创 linux命令随笔(5)
记一个快速拿到kafka版本号的命令:find ./libs/ -name *kafka_* | head -1 | grep -o ‘\kafka[^\n]*’
2017-04-05 16:50:39
489
原创 linux命令随笔(3)
ls / Vim**批量注释**方法一ctrl+v 进入列编辑模式,向下或向上移动光标,把需要注释的行的开头标记起来,然后按大写的I(shift+i),再插入注释符,比如”//”,再按Esc,就会全部注释了 批量去掉注释ctrl+v,进入列编辑模式,横向选中列的个数(如”//”注释符号,需要选中两列),然后按d, 就会删除注释符号方法二使用下面命令在指定的行首添加注释: :起始行号,结束行号s/^/
2017-04-01 16:54:03
407
原创 linux命令随笔(2)
LINUX通过下面的命令可以开启允许对外访问的网络端口:/sbin/iptables -I INPUT -p tcp –dport 8000 -j ACCEPT #开启8000端口/etc/rc.d/init.d/iptables save #保存配置/etc/rc.d/init.d/iptables restart #重启服务查看端口是否已经开放/etc/init.d/iptables statu
2017-04-01 16:52:55
438
原创 linux命令随笔(1)
wcwc -l filename 报告行数wc -c filename 报告字节数wc -m filename 报告字符数wc -w filename 报告单词数
2017-04-01 16:51:28
453
原创 sqoop1.4.6命令使用(一)
#### 列出所有数据库(可用于测试连接)sqoop-list-databases --connect jdbc:mysql://test104:3306 --username root --password 123456#### 列出所有表sqoop-list-tables --connect jdbc:mysql://test104:3306/sqoop --username root --
2017-04-01 16:14:01
5060
1
原创 sqoop1.4.6安装部署
安装部署环境Hadoop 2.7.3 jdk1.8mysql 5.6sqoop-1.4.6-cdh5.7.5.tarsqoop安装1.解压 sqoop-1.4.6-cdh5.7.5.tar 至/opt/behApache/core 重命名为sqoop2.拷贝mysql的jdbc驱动包 mysql-connector-java-5.1.30.jar 到sqoop/lib目录下3.配置环境变量expor
2017-04-01 16:13:35
559
转载 flume安装使用教程
1. flume概述1.1. flume概念1.1.1. flume概念flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集、聚集和移动,并以集中式的数据存储的系统。flume目前是apache的一个顶级项目。1.1.2. 系统需求flume需要java运行环境,要求java1.6以上.1.2. 下载
2017-04-01 15:57:36
3322
转载 CentOS 6.5系统安装配置图解教程(详细图文)
说明:截止目前CentOS 6.x最新版本为CentOS 6.5,下面介绍CentOS 6.5的具体安装配置过程服务器相关设置如下:操作系统:CentOS 6.5 64位IP地址:192.168.21.129网关:192.168.21.2DNS:8.8.8.8 8.8.4.4备注:CentOS 6.5系统镜像有32位和64位两个版本,生产服务器如果是大内存(4G以
2017-04-01 15:23:37
496
原创 hadoop is not allowed to impersonate hadoop
原因:用户代理未生效。检查core-site.xml文件是否正确配置。<property> <name>hadoop.proxyuser.hadoop.hosts</name> <value>*</value></property><property> <name>hadoop.proxyuser.hadoop.groups</name> <value>hadoop</value>
2017-03-31 14:33:19
9185
3
原创 spark1.2源码编译
为什么要编译源码呢?要搞hive on spark。。。1.CHD不好用,缺jar包啊2.hive1.1的 pom文件写了只支持spark1.23.Apache版本的部署包有-Phive编译,不能用简单粗暴的说下载源码包开始编译:1.使用这个命令:mvn -Pyarn -Phadoop-2.6 -Dscala-2.11 -DskipTests clean package官网只支持参数hadoop版
2017-03-31 14:28:21
485
原创 kafka 0.10.2 快速入门(译)
Step 1: 下载代码下载0.10.2.0版本并且解压它。> tar -xzf kafka_2.10-0.10.2.0.tgz> mv kafka_2.10-0.10.2.0 kafka> cd kafka Step 2: 启动服务运行kafka需要使用Zookeeper,所以你需要先启动Zookeeper,如果你没有Zookeeper,你可以使用kafka自带打包和配置好的Zooke
2017-03-31 14:28:16
2013
原创 spark sql with hive
spark standalonespark-1.5.0-bin-hadoop2.6spark-env.sh配置export SPARK_MASTER_IP=172.16.31.11export SPARK_MASTER_PORT=7077export SPARK_WORKER_CORES=1export SPARK_WORDER_INSTANCES=1export SPARK_WORK
2017-03-31 14:28:13
862
转载 How to Build a Scalable ETL Pipeline with Kafka Connect(转)
Apache Kafka is a high-throughput distributed message system that is being adopted by hundreds of companies to manage their real-time data. Companies use Kafka for many applications (real time stream
2017-03-15 16:47:23
559
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人