- 博客(8)
- 收藏
- 关注
原创 Flink 1.12.0 java.lang.NullPointerException: buffer at org.apache.flink.core.memory.MemorySegment
Flink 1.12.0 java.lang.NullPointerException: buffer at org.apache.flink.core.memory.MemorySegment.<init>Flink 1.12.0 版本,当你使用Temporal Table Join ORC格式的Hive维度表时出现如下异常java.lang.NullPointerException: buffer at org.apache.flink.core.memory.MemorySegmen
2020-12-23 11:04:54
564
2
原创 TPC-DS 测试Impala On Parquet和Impala On Kudu
文章目录导入Kudu数据TPC-DS测试SQL准备批量执行脚本生成测试结果导入Kudu数据假设已经使用hive-testbench在Hive中生成TPC-DS数据集了。参考上一篇文章基于hive-testbench实现TPC-DS测试接下来我们还需要生成Kudu的表和数据,先准备SQL:drop database if exists ${VAR:DB} cascade;create d...
2019-05-21 10:01:51
1898
原创 基于hive-testbench实现TPC-DS测试
基于hive-testbench实现TPC-DS测试TPC-DS测试概述TPC-DS测试基准是TPC组织推出的用于替代TPC-H的下一代决策支持系统测试基准。因此在讨论TPC-DS之前,先介绍一下TPC-H。1. TPC-HTPC-H是一款面向商品零售业的决策支持系统测试基准,它定义了8张表,22个查询,遵循SQL92。TPC-H的数据模型如图4所示。TPC-H基准的数据库模式遵循第三范式...
2019-05-20 09:01:07
4717
原创 Flink VS Spark Streaming 处理模型对比
Flink VS Spark Streaming数据处理模式Apache Flink是一个用于分布式流和批处理数据处理的开源平台。Flink的核心是流数据引擎,为数据流上的分布式计算提供数据分发,通信和容错,可对有限数据流和无限数据流进行有状态计算。Flink在流引擎之上构建批处理,覆盖本机迭代支持,托管内存和程序优化。Spark Streaming是Spark的一大应用方向,它基于Spa...
2019-04-28 17:00:57
1548
原创 Atlas kafka数据导入失败问题与zkUtils中Zookeeper连接解析
Atlas kafka数据导入失败atlas版本:apache-atlas-1.0.0Atlas安装完后需要导入hive和kafka的数据调用Atlas的import-kafka.sh导入kafka数据结果显示Kafka Data Model imported successfully!!! 但通过atlasWeb界面看到并没有数据导入查看import-kafka.log日志也没有报错信...
2018-10-29 10:41:29
2512
4
原创 Apache-Atlas 类型系统详解
Atlas Type SystemAtlas 类型系统,Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为 “类型” 的定义组成。被称为 “实体” 的 “类型” 实例表示被管理的实际元数据对象。类型系统是一个组件,允许用户定义和管理类型和实体。由 Atlas 管理的所有元数据对象(例如Hive表)都使用类型进行建模,并表示为实体。如果要在Atlas中存储新类型的元数据,需要...
2018-10-29 10:28:54
9083
6
原创 kafka 通过消费者获取__consumer_offsets topic的元数据内容
kafka 通过消费者获取__consumer_offsets topic的元数据内容工作中遇到一个问题需要获取kafka的元数据信息,诸如topic创建信息,消费者消费topic的信息等。要获取kafka的元数据信息,首先想到找zookeeper,利用zookeeper的watcher机制去监听kafka的元数据节点的创建,进而拿到对应信息。但由于kafka新版本存在两种消费者元数据保存机制...
2018-08-11 09:33:57
12230
7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人