
hadoop
文章平均质量分 78
nice to meet you2
这个作者很懒,什么都没留下…
展开
-
Apache Druid —— 使用Druid SQL 查询数据源Datasources(二)
根据__time 过滤查询#查询XXX这张表__time在2019-06-03T16:00:00.000Z至019-06-03T16:07:00.000Z的数据,__time为此datasource的时间序列,每个datasource多会有这样一个字段,是用户指定的一个业务时间映射的。也可以写成 from druid.XXXXSELECT * from XXXXWHERE __time >='2019-06-03T16:00:00.000Z' and __time <'2019-06-0原创 2020-05-09 21:09:36 · 1373 阅读 · 0 评论 -
Apache Druid —— 使用Druid SQL 查询元数据查询(一)
Druid使用SQL查询时,默认有3个schemal(类似于mysql的库):druid/INFORMATION_SCHEMA/sys 。用户的所有datasource均表示为表,存储在druid这个schemal(库)下,默认的schemal为druid,所以查询的数据时可以是from druid.datasourceName也可以直接from datasouceName,另外Druid还有两个系统级别的schemal:INFORMATION_SCHEMA and SYS。Druid元数据表介绍。原创 2020-05-09 18:18:26 · 4234 阅读 · 2 评论 -
clickhouse安装(单机版)—服务安装
1、添加hadoop账号2、设置hadoop账号具有sudo权限#切换root账号,执行visudo[root@bigdata-k-01 ~]# visudo#在visudo 中root ALL=(ALL) ALL下添加一行hadoop......## Allow root to run any commands anywhereroot ALL=(ALL) ...原创 2020-04-14 16:10:04 · 1268 阅读 · 2 评论 -
spark groupByKey 循环数组 行转列
使用spark-shell 通过groupByKey方法将行专列。一、需求在HDFS或本地目录有一份text格式数据(数据内容为英文逗号分隔,字段内容为uid,value,key),现在要求将这些数据按照uid分组,cat /home/hadoop/janusgraph-data/source.csv299067472793701,1003422322c6c937c63af250637...原创 2020-03-23 18:23:56 · 632 阅读 · 0 评论 -
SparkGraphComputer janusgraph bulkloading adjacent list
一、定义graphgraph schemal编写 /home/hadoop/janusgraph_data/bulkingloading-schemal-define.groovy,定义graph schemal[hadoop@bigdat-test-graph00.gz01 ]$ cat bulkingloading-schemal-define.groovydef defineBu...原创 2020-03-21 14:06:43 · 2225 阅读 · 3 评论 -
Spark 生成 janusgraph adjacent list
图数据库中的数据通常会来源于多张自然表在hive或关系型数据库.如存储人员城市graph。通常会有3张表,人员表(person)、地址表(address)、人员地址关联关系表(person_address)。一、原始数据原始数据person/address/person_address在HDFS /user/prod_kylin/janusgraph/source目录下:person....原创 2020-03-21 12:46:13 · 729 阅读 · 0 评论 -
Clickhouse简介
一、Clickhouse定义Clickhouse是一个列式数据库,通常适合OLAP场景二、适合Clickhouse的场景或一般的OLAP场景绝大多数的请求都是读请求;数据更新适合大批量,比如一次更新1000条以上,或者不更新,不适合一次更新1条记录;对于读取,会从数据库中获取相当多的行,但只有每行的一小部分列。clickhouse适合大宽表,但是每次查询只查询几列;...原创 2020-03-16 09:55:45 · 1686 阅读 · 0 评论 -
Extract Fact Table Distinct Columns(MR) 流程和源码解析
Extract Fact Table Distinct Columns job 进行统计估算和字典编码、范围计算,具体主要做3件事情:1、HLL估算统计每个cuboid的结果条数;2、所有非Derived维度列的范围(min-max);3、所有需要字典编码的列进行字典编码;这3部分内容都会存储到HDFS上,共后续步骤使用。本文所有的讲解根据MR实现进行讲解,Spark大家对照思路进行分析。...原创 2019-11-01 19:00:50 · 1145 阅读 · 0 评论 -
Kylin RT OLAP reassign流程即重新分配replica_set 流程
一、页面操作选择需要reassign的cube:Action——AssignMent——edit——save二、源码分析2.1 代码执行流程:用户提交assignment——》StreamingV2Controller(master).reAssignStreamingCube——》StreamingV2Service.reAssignCube——》Coordinator.reAssi...原创 2019-10-24 14:26:11 · 357 阅读 · 0 评论 -
Kylin实时OLAP(RT OLAP) segment状态变化流程
ACTIVE—— IMMUTABLE ——REMOTE_PERSISTED——Ready一、Active每个segment创建的时候初始为Active状态,只有active状态的segment可以消费数据,由kylin receiver负责创建Active的segment,分布????如下两处触发:1.1、启动Receiver时启动消费服务:参见代码StreamingServer.start...原创 2019-10-23 14:43:03 · 794 阅读 · 0 评论 -
Kylin Cube 构建源码分析-生成job并持久化(1)
页面: 点击buildserver-base: 进入org.apache.kylin.rest.controller原创 2019-05-06 10:16:53 · 440 阅读 · 2 评论 -
hive 的临时统计库 TempStatsStore
原文转载自:http://suanwuxian.com/?p=98Hive Statistics一、 社区介绍* [Hive Statistics](https://cwiki.apache.org/confluence/display/Hive/StatsDev)* [HIVE-1362](https://issues.apache.org/jira/brow转载 2013-05-23 16:34:55 · 2393 阅读 · 0 评论 -
java.sql.SQLNonTransientConnectionException: Database 'TempStatsStore' shutdown. java.sql.SQLExcept
2013-05-21 17:41:11,516 ERROR org.apache.hadoop.hive.ql.stats.jdbc.JDBCStatsPublisher: Error during JDBC initialization. java.sql.SQLNonTransientConnectionException: Database 'TempStatsStore' shutdo原创 2013-05-23 15:56:47 · 6756 阅读 · 0 评论 -
hive java.sql.SQLException: Table/View 'PARTITION_STATS_V2' already exists in Schema 'APP'.
这个问题折腾了我很久,网上也鲜有这些资料,网上和官网都只说了要替换metastore为mysql但是都没有说 Tempstatsstore.下面是错误和我的解决办法,希望对大家能够有所帮助。这是我在使用java jdbc 连接hive hiveserver2的时候所报的错误(多线程长期运行时):2013-05-23 10:45:56,364 ERROR org.apache.hadoop.原创 2013-05-23 15:51:20 · 2882 阅读 · 0 评论 -
java jdbc 连接hive cdh4.2 hiveserver2
package org.apache.hadoop.hive.client;import java.io.UnsupportedEncodingException;import java.sql.SQLException;import java.sql.Connection;import java.sql.ResultSet;import java.sql.Statem原创 2013-05-06 13:30:52 · 1452 阅读 · 0 评论 -
Hadoop Hive sql语法详解
原文转载于http://blog.youkuaiyun.com/hguisu/article/details/7256833分类: 云计算hadoop目录(?)[-]DDL Operations创建表创建表并创建索引字段ds显示所有表按正条件正则表达式显示表表添加一列添加一列并增加列字段注释更改表名删除列元数据存储将文件中的数据加载到表中转载 2013-01-15 16:24:35 · 619 阅读 · 0 评论 -
Kylin Real Time OLAP查询数据不准确问题定位解决全过程
最近团队正在调研Kylin Real Time OLAP (RT OLAP)模块,由于此模块社区还未发布稳定版,才使用过程中多多少少会踩坑,本文主要是对《通过Kylin查询的数据与ES查询的数据对不上》的问题,整个过程的排查、定位、解决思路的全过程进行记录,希望大家在遇见类似问题时可以有提供一些参考。一、问题描述通过 Kylin RT OLAP 创建了一个cube(rt_cube_test...原创 2019-09-28 00:56:22 · 1055 阅读 · 0 评论 -
Kylin实时OLAP(Real Time OlAP又称RT OLAP)查询模块源码分析
Kylin RT OLAP 查询大致逻辑:Kylin query节点根据当前传入的查询条件,定位到要查询的segment,在根据这些segment定位哪些segment从历史(hbase)查询、哪些segment从实时节点(receiver)查询,需要通过receiver查询的segment,kylin query server通过发送一个http请求给对应的receiver节点进行查询,re...原创 2019-09-29 18:38:51 · 1471 阅读 · 1 评论 -
Kylin 社区master动向 20190625
Kylin master 分支 2019-04月到06月新的功能和bug fix列表https://github.com/apache/kylin原创 2019-06-25 18:40:46 · 303 阅读 · 0 评论 -
Kylin 广播机制流程、源码分析——Broadcaster
Kylin的广播机制在整个Kylin集群中作用非常重大,各个节点之间的数据同步均是通过广播机制进行。1、Project/Model/Cube的元数据信息变化,由Broadcaster通过api的形式广播通知其他节点;2、build完成后触发auto merge等。广播机制大致流程:1、注册事件监听器:Tomcat启动后执行相关类的afterPropertiesSet方法,注册相关...原创 2019-05-22 21:16:32 · 604 阅读 · 0 评论 -
spark 排序并添加编号添加行号和初始值
1、可以全局根据某个字段排序;2、输出排序后的值,每个值需要带上当前的行号;如:Array(1, 10,12,39,23456,8,2, 3,50,87, 4,1,7,3,10000002, 5);输出: Array((1,0), (1,1), (2,2), (3,3), (3,4), (4,5), (5,6), (7,7), (8,8), (10,9), (12,10), (39,11),...原创 2019-05-22 17:19:19 · 4840 阅读 · 0 评论 -
hive 设置多个reduce
转载https://blog.youkuaiyun.com/u010010664/article/details/58054085转载 2019-04-29 18:04:34 · 366 阅读 · 0 评论 -
编译hadoop1.04 eclipse plugin插件 详解 在windows linux平台均可
编译hadoop eclipse插件 详解 一、linux下编译hadoop和eclipse-plugin操作系统为ubuntu10.0.4 x861.下载软件包hadoop-1.0.4.tar.gzeclipse-jee-indigo-SR2-linux-gtk.tar.gz将二者解压到/software目录下,分别命名为eclipse3.7 hadoop转载 2013-01-27 12:02:42 · 1508 阅读 · 0 评论