druid接入kafka indexing service整个流程

最新推荐文章于 2022-06-02 10:48:42 发布

原创

最新推荐文章于 2022-06-02 10:48:42 发布 · 3.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#druid #kafka #kafka-indexing-service

先介绍下我们的druid集群配置

Overload 1台

Coordinator 1台

Middle manager 3台

Broker 3台

Historical一共12台，其中cold 6台，hot 6台

druid版本：0.10, 0.9之后即可支持Kafka indexing service

目前的druid主要用来做批量灌入，包括天级，小时级，五分钟级

由于这个五分钟是一个小时前的五分钟，实时性不能满足需求，无法指导广告主实时投放

需要引入分钟级的实时数据，即广告主在投放一分钟之后就能看到投放的展现点击等指标数据，从而指导广告主投放

业务维度字段主要有

uid campaign_id plan_id mid posid

指标字段主要有

impressions clicks installs revenue

由于transqulity有数据丢失风险，所以我们拟采用kafka indexing service

1.打开druid的extensions目录，这个插件已经自带

2.在overload和middleManager上配置loadList，注意overload节点和middleManager节点都要配置，其他节点不需要

名称千万不能写错 "druid-kafka-indexing-service"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

千淘万漉

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用Druid将数据加载到Kafka

DeoSql的博客

09-21

225

最后，我们运行了Druid加载任务，并验证了数据加载的结果。通过这种方式，我们可以实现将实时数据加载到Kafka中，为后续的流处理和实时分析提供支持。首先，我们需要在Kafka中创建一个主题(topic)，作为数据加载的目标。接下来，我们需要配置Druid的加载任务，以将数据发送到Kafka主题。完成配置后，我们可以运行Druid加载任务，将数据发送到Kafka主题。这将显示Kafka主题中的所有数据，如果你看到了你预期的数据，则说明Druid成功将数据加载到Kafka中。三、配置Druid加载任务。

Druid Kafka indexing task停不下来，不进行Handoff

yxx1173的博客

12-28

2392

问题描述：Kafka indexing task，过了taskDuration仍在运行、ingest实时数据，不生成segments，导致coordinator console中最近的segments都是0B（即没有生成segments，数据都在middlemanager上）。原因分析： 1). 默认配置中supervisor的workerThreads(default == mi

1 条评论您还未登录，请先登录后发表或查看评论

如何使用 Druid 和 Kafka 构造 Kappa 架构完成流量分析

weixin_33794672的博客

01-23

162

NTT 是一家全球电信公司，总部设在日本东京。在《财富》世界 500 强中，NTT 是世界第四大电信公司。NTT 通信 (NTT Com) 是 NTT 的子公司，其全球 IP 网络 (GIN) 业务部拥有并运营着全球最大的一级 IP 骨干网之一，为欧洲、北美、南美、亚洲、大洋洲等主要国家提供高速、高容量的 IP 通信服务。任何互联网主干的核心活动之一都是流量分析，它支持对许多技术方面 (容量规划、...

Druid Kafka indexing service (上篇）

weixin_34023863的博客

07-10

131

2019独角兽企业重金招聘Python工程师标准>>> ...

Druid配置——Kafka Indexing Service（Kafka索引服务）

Niclas的博客

07-05

1992

Kafka Indexing Service Kafka索引服务可以在Overlord上配置，通过管理Kafka索引任务的创建和生命周期来促进Kafka的消费。这些索引任务使用Kafka自己的分区和偏移机制读取事件，因此能够提供完全一次摄取的保证。他们还能够从Kafka读取非近期事件，并且不受使用Tranquility对其他摄取机制施加的窗口期限的影响。主管监督索引任务的状态，以协调切换，管理故障...

Kafka Indexing Service最佳实践与Druid性能测试

在这个主题中，我们探讨的是 TalkingData 公司的李传猛在使用 Kafka Indexing Service 的最佳实践，特别是针对 Druid 0.9.1.1 版本。这个实践主要涉及实时数据处理和查询的需求，以及如何克服在实施过程中遇到的问题...

Druid Kafka索引服务的Task动态伸缩

weixin_38736107的博客

08-05

1540

一、Kafka Indexing Service 运行原理 1、简介 Kafka Indexing Service 是 Druid 推出的利用 Druid 的索引服务实时消费 Kafka 数据的插件。该插件会在 Overlord 中启动一个 supervisor，supervisor 启动之后会负责创建task、调度task到Middlemanager中运行，并管理监控整个task...

3、Druid的load data 示例（实时kafka数据和离线-本地或hdfs数据）

05-24

通常，你可以通过编写 JSON 格式的索引任务配置文件来指定数据源、解析器等信息，然后使用 Druid 的 indexing service 来执行这个任务。数据解析器如“hadoopyString”可以处理文本数据，并将其转换为 Druid 可以...

apache druid 与kafka整合使用

congge

09-21

4914

前言在上一篇，我们了解了apache druid的搭建，以及如何快速导入外部数据源到apache druid中进行数据分析和使用本篇，我们结合一个实际的简单的应用场景，来说说apache druid如何在实际项目中进行使用业务场景如下所示，是一个很常见的数据分析的业务，通常来说，很多实时或准实时的数据（这里理解为外部数据源）需要通过kafka进行中转，即发送到kafka中， apache druid提供了导入外部数据源的功能，可以接收来自kafka指定topic的数据，然后支持数据分析，将kafka

Druid 使用 Kafka 将数据载入到 Kafka

HONEY MOOSE

08-07

479

将数据载入到 Kafka 现在让我们为我们的主题运行一个生成器（producer），然后向主题中发送一些数据！在你的 Druid 目录中，运行下面的命令： cd quickstart/tutorial gunzip -c wikiticker-2015-09-12-sampled.json.gz > wikiticker-2015-09-12-sampled.json 在你的 Kafka 的安装目录中，运行下面的命令。请将 {PATH_TO_DRUID} 替换为 Druid 的安装目录：

Druid Kafka indexing service (Druid 导入 Kafka 数据)

祥哥

06-02

294

druid配置kafka

Druid中的Kafka Indexing Service源码分析

小龙的博客

04-08

2255

Kafka Indexing Service开发的目的是为了增强Kafka中数据的实时摄入。其特性如下：保障数据摄入的Exactly Once。可以摄入任意时间戳的数据，而不仅仅是当前数据。可以根据Kafka分区的变化二调整任务的数量。影响数据摄入Exactly Once的主要因素是Kafka的Offset管理。Kafka Indexing Service为了实现Exactly Once语义，去掉...

druid.io kafka-Index-service.json任务

梦想成真那天

08-22

1248

supervisor-spec1.json如下: { &quot;type&quot;: &quot;kafka&quot;, &quot;dataSchema&quot;: { &quot;dataSource&quot;: &quot;metrics-kafka&quot;, &quot;parser&a

Druid 加载 Kafka 流数据配置可以读取和处理的流中数据格式

HONEY MOOSE

08-10

471

Kafka 索引服务（indexing service）支持inputFormat和parser来指定特定的数据格式。 inputFormat是一个较新的参数，针对使用的 Kafka 索引服务，我们建议你对这个数据格式参数字段进行设置。不幸的是，目前还不能支持所有在老的parser中能够支持的数据格式（Druid 将会在后续的版本中提供支持）。目前inputFormat能够支持的数据格式包括有：csv，delimited，json。如果你使用parser的话，你也可以...

apache druid 实时加载kafka 中的数据（一）

极客编程的专栏

11-18

1670

简介 apache druid是分布式列存储的OLAP框架。还是一个时间序列数据库。本篇文章主要是druid在kafka加载数据的配置。由于druid升级情况太快，本人的环境还是在0.13，主要改动方面还是UI，新的版本在UI方面更适合新手入门。文章如有帮助，请关注微信公共号...

Druid：通过 Kafka 加载流数据

码哥字节

06-01

658

开始本教程演示了如何使用 Druid 的 Kafka indexing 服务从 Kafka 流中加载数据至 Druid。在本教程中，我们假设你已经按照 quickstart 文档中使用...

Druid 使用 Kafka 数据加载教程——下载和启动 Kafka

HONEY MOOSE

08-07

332

本教程演示了如何使用Druid的Kafka索引服务将数据从Kafka流加载到Apache Druid中。假设你已经完成了快速开始页面中的内容或者下面页面中有关的内容，并且你的 Druid 实例已使用micro-quickstart配置在你的本地的计算机上运行了。到目前，你还不需要加载任何数据。下载和启动 Kafka Apache Kafka是一个高吞吐量消息总线，可与 Druid 很好地配合使用。在本指南中，我们将使用 Kafka 2.1.0 版本。下载 Kafka 后，...

druid kafka index service still waiting for hand off segments

Mr__XiaoBai的专栏

08-07

1796

在向overlord提交kafka index service task之后，数据可实时接收，并且在druid segments中的目录下segments已生成落盘，并且coordinator已向metastore中注册segments信息，而在task 日志中，出现以下错误。此时错误为：still waiting for hand off segments，此错误会造成mid...