奈文摩尔ST-优快云博客

原创 Flink Kafka Doris实战demo

Flink Kafka Doris实战demo环境：Flink 1.12Doris 0.12Kafka 1.0.1+kafka3.1.1一：编译doris参考官网Docker编译：https://github.com/apache/incubator-doris/wiki/Doris-Install1.1 注意问题：需要把fe/pom.xml中下载的Repository地址改下cloudera-thirdpartyhttps://repository.cloudera.com/

2021-04-16 16:30:45 2368 2

原创 gcc 4 升级 9

1、执行sudo yum install centos-release-sclsudo yum install devtoolset-4-gcc* 1.1没有可用软件包已加载插件：fastestmirror, langpacks Loading mirror speeds from cachedhostfilebase: mirrors.163.comcentos-sclo-rh: mirrors.163.comcentos-sclo-sclo: mirrors.163.comext

2021-04-08 14:36:29 861

原创 LDAP密码修改系统 Self Service Password

安装升级PHPhttps://www.centos.bz/2018/05/centos-6-7-%E5%8D%87%E7%BA%A7-php-5-6-%E5%88%B0-7-1-7-2/安装Self Service Password下载地址：https://ltb-project.org/download#self_service_password参考地址：https://ltb-project.org/documentation/self-service-password/latest/insta

2020-09-18 15:33:27 1181

原创 flink kafka offset配置

一：flink kafka offset配置1. setStartFromGroupOffsets(默认的)：example：Map specificStartOffsets = new HashMap<>();specificStartOffsets.put(new KafkaTopicPartition("myTopic", 0), 23L);specificStartOffsets.put(new KafkaTopicPartition("myTopic", 1), 31L);

2020-08-14 15:57:14 1617

原创 CDH服务最大文件描述符

CDH最大文件描述符Configuring Maximum File Descriptors一：问题：二：解决三：参考CDH服务最大文件描述符修改

2020-07-02 11:52:34 740

原创 zookeeper oom

一：问题：zookeeper oom挂掉之后重启及选举失败二：排查：2.1 oom信息：java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3236) at java.io.ByteArrayOutputStream.grow(ByteArray...

2020-06-24 13:06:42 28904

原创 hdfs多副本删除策略

代码：chooseExcessReplicates// split nodes into two sets// moreThanOne contains nodes on rack with more than one replica// exactlyOne contains the remaining nodessplitNodesWithRack(candidates, rackM...

2020-06-09 18:48:19 708

原创 Hbase集群调优

一：hbase现有硬件资源的理论性能1.集群容量规划公式：优化调整，发挥硬件的最大优势；Disk Size / Java Heap=RegionSize / MemstoreSize * ReplicationFactor * HeapFractionForMemstore *2按照默认配置，RegionSize = 10G，对应参数为hbase.hregion.max.filesi...

2020-06-06 12:14:49 554

原创 HBase集群平滑迁移步骤

HBase集群平滑迁移步骤测试环境CDH版本HBASE版本测试源集群5.15.11.2.0测试目标集群6.2.02.1.0线上迁移环境CDH版本HBASE版本线上源集群5.9.31.2.0线上目标集群6.2.02.1.0迁移前准备源集群配置snapshot配置（已配置忽略）#修改配置hbase.sna...

2020-04-11 19:49:34 357

原创 HBase跨集群迁移调研方案

HBase跨集群迁移调研方案回顾迁移目的HBase跨集群平滑迁移方案方案一双写：replication历史数据：Snapshot——>exportSnapshot——>clone_snapshot——>copyTable方案二双写：replication历史数据：Snapshot——>exportSnapshot——>bulkload操作命...

2020-04-11 19:20:00 261

原创 Tez线上部署及性能测试:

背景：如果作业由多个MR任务完成，则必然经过多次完整的Map–shuffer–Reduce，中间节点的数据多次写入HDFS，浪费IO读写。（可以将HDFS理解为多个任务之间的共享存储。）Tez的引入可以较小的代价的解决这一问题。Tez采用了DAG（有向无环图）来组织MR任务。核心思想：将Map任务和Reduce任务进一步拆分，Map任务拆分为Input-Processor-Sort-M...

2020-04-11 19:01:52 639

原创 Phoenix对接Superset+Presto

Phoenix对接Superset+Presto安装prestosql参考：https://prestosql.io/docs/current/installation/deployment.htmlPresto配置Phoenix连接新建文件/presto-server-331/etc/catalog/phoenix.propertie添加配置：connector.name=phoen...

2020-03-28 10:21:06 550

原创 flink-cdh-parcel测试安装

先上flink-cdh-parcel测试安装效果图：clipboard1.pngclipboard22.pngclipboard33.png下载地址：https://archive.cloudera.com/csa/1.0.0.0一：将FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jar放置到如下：clipboard....

2020-03-27 23:19:33 862 1

原创 Hbase BulkLoad Snapshot On Table

一：目的：主从集群replication双写下，为了不影响增量数据，将全量数据snapshot导入新集群表中二：方案：2.1 .cdh6以下hbase版本：方案一：clone_snapshot +copyTable（整表执行，操作次数少；操作时间长；copy Table会影响到正常读写，由于region的split）方案二：bulkload ，但是受region个数与列族个数影响，...

2019-06-20 15:10:34 334

原创 CDH parcel 激活卡住解决

一、问题：安装组件，parcel激活卡住不动二、解决：2.1点击API文档clipboard.png2.2点击rest;找到deactive,点击进去clipboard1.png2.3 查看rest接口信息clipboard2.png2.4 使用方法：curl -u admin:admin -X POST http://${cloudera-...

2019-04-24 18:07:47 2804 1

原创 JAVA性能优化参考

1.性能优化：Perceived system performance:从开发的角度去衡量，如响应时间，并发数，请求数，错误率等等。Perceived user experience:从用户角度出发，如首屏时间，白屏时间，完全加载时间，即用户能实际感觉到得网页加载延迟。System performance:从服务器的角度出发，监测目前服务器的cpu，内存，网络带宽,流量等等物理资源。1...

2018-12-08 17:26:29 614

原创 hbase DroppedSnapshotException

hbase夯机问题： FATAL org.apache.hadoop.hbase.regionserver.HRegionServer: ABORTING region server : Replay of WAL required. Forcing server shutdown? Caused by: org.apache.hadoop.hbase.exceptions.TimeoutIO...

2018-10-26 17:41:00 672

原创大数据技术框架一

大数据技术框架1. 简介2. Hadoop框架2.1. Hadoop-MapReduce2.1.1. 简介：2.1.2. 特点2.1.3. 架构2.1.4. 执行流程：2.1.5. Wordcount例子2.1.6. 缺点：2.2. Yarn2.2.1. 简介2.2.2. 架构2.2.3. 工作流程2.2.4. 设计目标2.3. Hadoo...

2018-06-11 16:40:39 488

原创 hbase simple权限二

一：HBASE权限userHBASE的user底层使用的还是hadoop的user；构造connection类：public static Connection createConnection(Configuration conf, User user) throws IOException { return createConnection(conf, null, user);...

2018-02-02 16:21:16 213

原创 hbase simple权限一

一：shell执行：grant授权：查看commands目录下grant.rb文件：security_admin.grant(user, permissions, table_name, family, qualifier)进入security.rb文件执行：org.apache.hadoop.hbase.security.access.AccessControlClient.gran...

2018-01-17 17:59:11 331

原创 HBASE-LSM树

HBASE-LSM树1.B+树关于B树、B+树、B树的了解参考：*http://blog.youkuaiyun.com/v_july_v/article/details/6530142优点：走进搜索引擎的作者梁斌老师针对B树、B+树给出了他的意见（为了真实性，特引用其原话，未作任何改动）：“B+树还有一个最大的好处，方便扫库，B树必须用中序遍历的方法按序扫库，而B+树直接从叶子结点挨个扫一遍就完...

2018-01-05 13:26:20 207

原创 hbase scan客户端服务端流程

hbase scan客户端服务端流程一：基础知识了解：scanner可分为两种InternalScanner和KeyValueScanner,区别如下1.InternalScanner,可以理解为包含其他scanner的scanner，它的主要接口为next(),作用是从其包含的scanner中获取下一个KeyValue,它的角色可以理解为雇佣KeyValueScanner2.KeyVa...

2017-12-29 11:27:55 257

原创 hbase gc调优（CMS与G1）参数

hbase gc调优（CMS与G1）一：hbase gc调优目的：在HBase中，有两个在内存中的结构消费了绝大多数的heap空间。BlockCache缓存读操作的HFileblock，Memstore缓存近期的写操作，基于HBase是一个响应时间敏感，并且需要对GC时间可控的应用的出发点。二：hbase的gc调优本文通过CMS与g1两种算法进行设置参考。（需要大致了解两种垃圾收集器...

2017-12-19 15:28:33 425

原创 hbase-region个数

hbase-region数量单个regionserver配置region个数的两种方案：根据官方推荐配置（硬盘容量）；根据内存配置一：官方推荐配置（硬盘容量）：官方文档给出的推荐：regionserver上的region个数范围在20~200；每个region的大小在10G~30G之间，比较符合实际。配置：regionSize的大小配置：hbase.hregion.max.file...

2017-12-15 14:18:48 1590

原创 hbase meta表数据存储

hbase meta表数据存储1.meta表存储了在系统上的一系列的region信息。以及meta表的信息存储在zookeeper上。2.meta表结构如下（默认列族为info）：Key：Region key of the format ([table表名],[region start key起始键],[region id])Values：序列化的regioninfo实例info...

2017-12-01 13:54:53 406

原创 hbase过滤器filter及自定义filter

hbase过滤器filter及自定义filter1.filter源码实现：hbase的filter定义在protobuf中（filter.proto文件）。如：message QualifierFilter { required CompareFilter compare_filter = 1;}message RandomRowFilter { required fl...

2017-11-29 14:42:49 221

原创 zookeeper数据存储及查看hbase信息

zookeeper数据存储及查看hbase信息1.zookeeper数据存储：1.1内存数据存储、磁盘数据存储. 内存数据存储：数据模型是一棵树。包括所有节点路径，节点信息，ACL等。 DataTree:所有节点信息 DataNode:数据存储最小单元1.2磁盘数据存储：目录在配置zookeeper的文件中。ls /tmp/zookeeper/myid version-...

2017-11-28 17:01:56 2342

原创 hbase snapshot源码分析

snapshot操作在硬盘上形式：/hbase/.snapshots /.tmp <---- working directory /[snapshot name] <----- completed snapshot当snapshot完成时的形式展示： /hbase/.snapshots/[...

2017-11-24 15:39:27 219

原创 hbase region split源码流程

hbase region split ：split执行调用流程：1.HbaseAdmin发起split：###2.RSRpcServices实现类执行split（Implements the regionserver RPC services.）###3.CompactSplitThread类与SplitRequest类用来执行region切割:###4.splitRequest执行do...

2017-06-01 11:29:14 851

原创 hbase优化实践一

hbase优化一：gc参数优化：region服务器处理过大的负载，内存分配策略无法安全地只依赖JRE对程序的行为的各种假设，需要使用JRE提供的选项调整垃圾回收策略应对。写入磁盘的数据客户端不连续，导致Java虚拟机堆内存出现空洞。年轻代空间：128~512M之间老生代：好几G。配置文件添加：hbase-env.sh：HBASEOPTS或者HBASEREGIONSERVER_OPT(推荐...

2017-05-09 18:11:53 128

原创 hbase协处理器Coprocessor（简介）

一：介绍把一部分计算也移动到数据的存放端；允许用户执行region级的操作；可以动态加载。二：使用场景：1、使用钩子来关联行修改操作来维护辅助索引，或维护一些数据间的引用完整性。2.权限控制三：coprocessor两大类：observer和endpoint介绍3.1Observer与触发器类似;regionobserver处理数据修改事件，表region联系紧密;Master...

2017-04-13 10:38:45 268

奈文摩尔ST