
大数据开发
文章平均质量分 75
nice to meet you2
这个作者很懒,什么都没留下…
展开
-
Apache Druid —— 使用Druid SQL 查询数据源Datasources(二)
根据__time 过滤查询#查询XXX这张表__time在2019-06-03T16:00:00.000Z至019-06-03T16:07:00.000Z的数据,__time为此datasource的时间序列,每个datasource多会有这样一个字段,是用户指定的一个业务时间映射的。也可以写成 from druid.XXXXSELECT * from XXXXWHERE __time >='2019-06-03T16:00:00.000Z' and __time <'2019-06-0原创 2020-05-09 21:09:36 · 1373 阅读 · 0 评论 -
Apache Druid —— 使用Druid SQL 查询元数据查询(一)
Druid使用SQL查询时,默认有3个schemal(类似于mysql的库):druid/INFORMATION_SCHEMA/sys 。用户的所有datasource均表示为表,存储在druid这个schemal(库)下,默认的schemal为druid,所以查询的数据时可以是from druid.datasourceName也可以直接from datasouceName,另外Druid还有两个系统级别的schemal:INFORMATION_SCHEMA and SYS。Druid元数据表介绍。原创 2020-05-09 18:18:26 · 4234 阅读 · 2 评论 -
clickhouse安装(单机版)—服务安装
1、添加hadoop账号2、设置hadoop账号具有sudo权限#切换root账号,执行visudo[root@bigdata-k-01 ~]# visudo#在visudo 中root ALL=(ALL) ALL下添加一行hadoop......## Allow root to run any commands anywhereroot ALL=(ALL) ...原创 2020-04-14 16:10:04 · 1268 阅读 · 2 评论 -
spark groupByKey 循环数组 行转列
使用spark-shell 通过groupByKey方法将行专列。一、需求在HDFS或本地目录有一份text格式数据(数据内容为英文逗号分隔,字段内容为uid,value,key),现在要求将这些数据按照uid分组,cat /home/hadoop/janusgraph-data/source.csv299067472793701,1003422322c6c937c63af250637...原创 2020-03-23 18:23:56 · 632 阅读 · 0 评论 -
SparkGraphComputer janusgraph bulkloading adjacent list
一、定义graphgraph schemal编写 /home/hadoop/janusgraph_data/bulkingloading-schemal-define.groovy,定义graph schemal[hadoop@bigdat-test-graph00.gz01 ]$ cat bulkingloading-schemal-define.groovydef defineBu...原创 2020-03-21 14:06:43 · 2225 阅读 · 3 评论 -
Spark 生成 janusgraph adjacent list
图数据库中的数据通常会来源于多张自然表在hive或关系型数据库.如存储人员城市graph。通常会有3张表,人员表(person)、地址表(address)、人员地址关联关系表(person_address)。一、原始数据原始数据person/address/person_address在HDFS /user/prod_kylin/janusgraph/source目录下:person....原创 2020-03-21 12:46:13 · 729 阅读 · 0 评论 -
Clickhouse简介
一、Clickhouse定义Clickhouse是一个列式数据库,通常适合OLAP场景二、适合Clickhouse的场景或一般的OLAP场景绝大多数的请求都是读请求;数据更新适合大批量,比如一次更新1000条以上,或者不更新,不适合一次更新1条记录;对于读取,会从数据库中获取相当多的行,但只有每行的一小部分列。clickhouse适合大宽表,但是每次查询只查询几列;...原创 2020-03-16 09:55:45 · 1686 阅读 · 0 评论 -
Extract Fact Table Distinct Columns(MR) 流程和源码解析
Extract Fact Table Distinct Columns job 进行统计估算和字典编码、范围计算,具体主要做3件事情:1、HLL估算统计每个cuboid的结果条数;2、所有非Derived维度列的范围(min-max);3、所有需要字典编码的列进行字典编码;这3部分内容都会存储到HDFS上,共后续步骤使用。本文所有的讲解根据MR实现进行讲解,Spark大家对照思路进行分析。...原创 2019-11-01 19:00:50 · 1145 阅读 · 0 评论 -
Kylin RT OLAP reassign流程即重新分配replica_set 流程
一、页面操作选择需要reassign的cube:Action——AssignMent——edit——save二、源码分析2.1 代码执行流程:用户提交assignment——》StreamingV2Controller(master).reAssignStreamingCube——》StreamingV2Service.reAssignCube——》Coordinator.reAssi...原创 2019-10-24 14:26:11 · 357 阅读 · 0 评论 -
Kylin实时OLAP(RT OLAP) segment状态变化流程
ACTIVE—— IMMUTABLE ——REMOTE_PERSISTED——Ready一、Active每个segment创建的时候初始为Active状态,只有active状态的segment可以消费数据,由kylin receiver负责创建Active的segment,分布????如下两处触发:1.1、启动Receiver时启动消费服务:参见代码StreamingServer.start...原创 2019-10-23 14:43:03 · 794 阅读 · 0 评论 -
Kylin 实时OLAP如何做CheckPoint
一、新建cube第一次消费的情况:此种情况根据kylin.stream.consume.offsets.latest配置,true表示从最新的数据开始消费,false表示从最早的数据开始消费,默认为true.二、Disable cube再enable的情况Kylin在disable cube时操作:1、清空zk节点上此cube的数据(/kylin/KYLIN_PROD:kylin_meta...原创 2019-10-22 10:39:21 · 287 阅读 · 0 评论 -
hive 设置多个reduce
转载https://blog.youkuaiyun.com/u010010664/article/details/58054085转载 2019-04-29 18:04:34 · 366 阅读 · 0 评论 -
Kylin Cube 构建源码分析-生成job并持久化(1)
页面: 点击buildserver-base: 进入org.apache.kylin.rest.controller原创 2019-05-06 10:16:53 · 440 阅读 · 2 评论 -
Kylin 广播机制流程、源码分析-触发autoMerge segments为例
接下来看下staticListenerMap是什么时候放入的:其中CacheService注册cube相关的静态listener(cacheSyncListener)主要就是触发auto merge 相关接下来咱们看下cubeService中注册的静态listener中的onEntityChange方法:keepCubeRetention方法:mergeCubeSeg...原创 2019-05-23 12:17:20 · 383 阅读 · 0 评论 -
spark 排序并添加编号添加行号和初始值
1、可以全局根据某个字段排序;2、输出排序后的值,每个值需要带上当前的行号;如:Array(1, 10,12,39,23456,8,2, 3,50,87, 4,1,7,3,10000002, 5);输出: Array((1,0), (1,1), (2,2), (3,3), (3,4), (4,5), (5,6), (7,7), (8,8), (10,9), (12,10), (39,11),...原创 2019-05-22 17:19:19 · 4840 阅读 · 0 评论 -
Kylin 广播机制流程、源码分析——Broadcaster
Kylin的广播机制在整个Kylin集群中作用非常重大,各个节点之间的数据同步均是通过广播机制进行。1、Project/Model/Cube的元数据信息变化,由Broadcaster通过api的形式广播通知其他节点;2、build完成后触发auto merge等。广播机制大致流程:1、注册事件监听器:Tomcat启动后执行相关类的afterPropertiesSet方法,注册相关...原创 2019-05-22 21:16:32 · 604 阅读 · 0 评论 -
Kylin 社区master动向 20190625
Kylin master 分支 2019-04月到06月新的功能和bug fix列表https://github.com/apache/kylin原创 2019-06-25 18:40:46 · 303 阅读 · 0 评论 -
Kylin2.0-Hbase0.98重启问题
背景:目前当HBase添加、删除节点、重启、移动rgroup或者hbase table移动region server等操作后,均需要Kylin的所有节点重启,理论上这些操作可以对上层应用透明或者只有短暂的不可用后自行恢复。但是目前咱们有8套Kylin集群均需要在HBase变动后进行Kylin重启才可以继续提供相应的服务,对上层服务影响较大,HBase的变更也会变得复杂。但是咱们提供的Kylin ...原创 2019-07-23 16:23:41 · 477 阅读 · 0 评论 -
HBase change causes Kylin restart problem (Kylin 2.0 HBase 0.98)
Background: We have some Kylin clusters (Kylin 2.0 HBase 0.98) on the line must restart all Kylin nodes after HBase delete nodes, change RSGroup, change Region server or HTable splitting operations. ...原创 2019-07-29 11:19:44 · 282 阅读 · 0 评论 -
多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践
由于Kylin的本身架构(广播特性)和业务特点通常不适用于单套Kylin集群的节点过多,通常大家采用拆分Kylin集群但是底层的Hbase集群和计算集群用一套的方式进行部署。本文主要根据目前咱们的实践经验对于此种场景集群配置进行分享,希望对大家有所帮助。一、部署环境:Kylin集群:当前有两套Kylin集群(kylin-cluster01,kylin-cluster02);部署...原创 2019-07-26 16:10:01 · 1107 阅读 · 0 评论 -
Kylin实时OLAP(Real Time OlAP又称RT OLAP)查询模块源码分析
Kylin RT OLAP 查询大致逻辑:Kylin query节点根据当前传入的查询条件,定位到要查询的segment,在根据这些segment定位哪些segment从历史(hbase)查询、哪些segment从实时节点(receiver)查询,需要通过receiver查询的segment,kylin query server通过发送一个http请求给对应的receiver节点进行查询,re...原创 2019-09-29 18:38:51 · 1471 阅读 · 1 评论