震惊！Doris和Hive竟然能这样玩？数据分析的松弛感拉满

原创已于 2024-12-20 21:38:58 修改 · 1.9k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#hive #数据分析 #hadoop #数据库

于 2024-12-16 17:59:26 首次发布

Doris 同时被 2 个专栏收录

29 篇文章

订阅专栏

大数据

28 篇文章

订阅专栏

震惊！Doris和Hive竟然能这样玩？数据分析的松弛感拉满

凌晨三点，办公室里只剩下屏幕的幽光。数据工程师小明正在和两个"大家伙"较劲 —— Doris和Hive。
“导出、清洗、导入…“他机械地在不同组件来回重复着这些步骤，眼睛都开始冒金星了。这样的场景在数据团队中太常见了，让人不禁想问：难道真的要这样手动倒腾数据一辈子吗？
就在这时，Doris向Hive递出了"橄榄枝” —— Hive Catalog闪亮登场！
它就像是给这对"数据CP"安排了一场完美联姻，从此Doris可以直接读写Hive的数据，让两个系统能够"双宿双飞”。不管是HDFS还是对象存储，不管是简单查询还是复杂分析，一个Catalog就能搞定！
这个神奇的功能让小明眼前一亮，终于可以跟那些繁琐的数据同步说再见了。让我们一起来揭秘这个数据工程师的"续命神器"吧！

Doris与Hive的完美邂逅

深夜，小明正对着屏幕发愁。作为一名数据工程师，他面临着一个棘手的问题：公司的数据分散在Doris和Hive两个系统中，每次跨系统分析数据都要手动导出导入，繁琐且低效。

"要是能让Doris直接读写Hive的数据就好了…"他喃喃自语。

这个烦恼不止小明一个人有。随着数据量的爆炸式增长，企业的数据架构越发复杂，数据存储分散在各个系统中。如何打通这些数据孤岛，实现统一的数据访问和分析，成为了一个普遍的技术痛点。

[tu]

好消息是，Apache Doris通过Hive Catalog功能早已完美解决了这个问题。它好比是在Doris和Hive之间架起了一座桥梁，让两个系统能够无缝协作。

从Doris 2.1.3版本开始，通过Hive Catalog，Doris不仅能够查询和导入Hive中的数据，还能执行创建表、回写数据等操作，真正实现了湖仓一体的架构设计。

Hive Catalog的核心价值在于它提供了一个统一的数据访问层。对数据开发人员来说，不需要再关心数据具体存储在哪里，只需要通过Doris就能完成所有数据操作。比如，可以直接在Doris中创建Hive表：

CREATE CATALOG hive PROPERTIES (
    'type'='hms',
    'hive.metastore.uris' = 'thrift://172.21.16.47:7004'
);

设置完成后，就能像操作普通Doris表一样操作Hive表了。不仅支持查询，还能执行INSERT、CREATE TABLE AS SELECT等写入操作。系统会自动处理分区管理、文件格式转换等复杂细节。

更令人振奋的是，Doris还提供了完善的安全机制。通过集成Kerberos认证和Ranger权限管理，企业不用担心数据安全问题。可以精确控制到列级别的访问权限，保证数据访问的合规性。

现在，小明终于露出了笑容。有了Hive Catalog，他每天的工作效率提升了不少。跨系统的数据分析变得如此简单，就像在操作同一个系统一样流畅。

这仅仅是开始，下文我们将探讨Hive Catalog更多强大的特性。一起来瞅瞅Doris+Hive数据湖仓一体化的新篇章！

Doris-Hive Catalog核心特性

小明最近又遇到了新的挑战。公司的数据分析场景越来越复杂，既有传统的HDFS存储，又引入了对象存储。

如何让Doris优雅地处理这些不同的存储媒介？让我们深入浅出Doris Hive Catalog的强大功能。

[tu]

多样化的存储支持

每个存储系统都有其特色。HDFS+Hive适合历史全量大规模离线数据处理，对象存储则具有高可扩展性和低成本优势…

But，Hive Catalog提供了统一的访问接口，屏蔽了底层存储的差异：

-- 连接S3
CREATE CATALOG hive_s3 PROPERTIES (
    "type"="hms",
    "hive.metastore.uris" = "thrift://172.0.0.1:9083",
    "s3.endpoint" = "s3.us-east-1.amazonaws.com",
    "s3.region" = "us-east-1",
    "s3.access_key" = "ak",
    "s3.secret_key" = "sk",
    "use_path_style" = "true"
);
-- 可选属性：
-- s3.connection.maximum：S3 最大连接数，默认 50
-- s3.connection.request.timeout：S3 请求超时时间，默认 3000ms
-- s3.connection.timeout：S3 连接超时时间，默认 1000ms

-- 连接OSS
CREATE CATALOG hive_oss PROPERTIES (
    "type"="hms",
    "hive.metastore.uris" = "thrift://172.0.0.1:9083",
    "oss.endpoint" = "oss.oss-cn-beijing.aliyuncs.com",
    "oss.access_key" = "ak",
    "oss.secret_key" = "sk"
);

...

智能的元数据管理

Doris采用智能的元数据缓存机制，在保证数据一致性的同时提供高性能查询：

本地缓存策略

Doris会在本地缓存表的元数据信息，减少对HMS的访问频率。当缓存数量超过阈值后，会使用 LRU（Least-Recent-Used）策略移除部分缓存。

智能刷新

[Notification Event 图]

通过订阅HMS的Notification Event，Doris能及时感知元数据变更。例如可以在创建 Catalog 时，设置该 Catalog 的定时刷新：

CREATE CATALOG hive PROPERTIES (
    'type'='hms',
    'hive.metastore.uris' = 'thrift://172.0.0.1:9083',
    'metadata_refresh_interval_sec' = '3600'
);

也可以按需手动刷新：

-- 刷新指定 Catalog。
REFRESH CATALOG ctl1 PROPERTIES("invalid_cache" = "true");

-- 刷新指定 Database。
REFRESH DATABASE [ctl.]db1 PROPERTIES("invalid_cache" = "true");

-- 刷新指定 Table。
REFRESH TABLE [ctl.][db.]tbl1;

企业级安全特性

安全永远是企业数据管理的重中之重。Hive Catalog同时也提供了完整的安全解决方案：

Ranger权限控制

Apache Ranger 是一个用来在 Hadoop 平台上进行监控，启用服务，以及全方位数据安全访问管理的安全框架。

Doris 支持为指定的 External Hive Catalog 使用 Apache Ranger 进行鉴权。

目前支持 Ranger 的库、表、列的鉴权，暂不支持加密、行权限、Data Mask 等功能。

只需要配置下FE所有环境，再创建 Catalog 时增加即可：

-- access_controller.properties.ranger.service.name 指的是 service 的类型
-- 例如 hive，hdfs 等。并不是配置文件中 ranger.plugin.hive.service.name 的值。
"access_controller.properties.ranger.service.name" = "hive",
"access_controller.class" = "org.apache.doris.catalog.authorizer.ranger.hive.RangerHiveAccessControllerFactory",

Kerberos认证

除了可以集成Ranger，Doris Hive Catalog也支持与企业现有的Kerberos认证体系无缝集成。例如：

CREATE CATALOG hive_krb PROPERTIES (
    'type'='hms',
    'hive.metastore.uris' = 'thrift://172.0.0.1:9083',
    'hive.metastore.sasl.enabled' = 'true',
    'hive.metastore.kerberos.principal' = 'your-hms-principal',
    'hadoop.security.authentication' = 'kerberos',
    'hadoop.kerberos.keytab' = '/your-keytab-filepath/your.keytab',   
    'hadoop.kerberos.principal' = 'your-principal@YOUR.COM',
    'yarn.resourcemanager.principal' = 'your-rm-principal'
);