- 博客(8)
- 资源 (7)
- 收藏
- 关注
原创 Python入门教学:第一章 从零开始编写你的「疫情数据追踪程序」
一行代码验证安装效果(打开CMD/Terminal输入。用VS Code创建超维空间站。f"确诊{500}"
2025-03-22 17:11:44
234
原创 Paimon 表类型详解:从基础到高级应用
Paimon 支持多种表类型,每种类型都有其独特的应用场景和优势。带主键的表(Table with PK):支持主键约束,确保数据的唯一性,适合需要频繁更新和查询的场景。无主键的表(Table w/o PK):适用于追加数据的场景,不支持直接更新,但支持批量操作。视图(View):虚拟表,依赖于元数据存储,适合跨引擎查询。格式表(Format Table):支持多种文件格式,如 CSV、Parquet、ORC、JSON,适合与 Hive 表集成。对象表(Object Table)
2025-03-19 13:45:35
665
原创 Paimon Catalog 与Spark引擎的表管理
文件系统元数据存储(默认):元数据和表文件都存储在文件系统中。Hive 元数据存储:元数据存储在 Hive Metastore 中,用户可以直接从 Hive 访问表。JDBC 元数据存储:元数据存储在关系型数据库(如 MySQL、Postgres 等)中。本文详细介绍了如何在 Paimon 中创建和管理 Catalog 和表。通过不同类型的 Catalog,您可以灵活地选择元数据存储方式,并通过 SQL DDL 语句轻松管理表、视图和标签。希望这篇指南能帮助您更好地理解和使用 Paimon 的强大功能。
2025-03-18 15:15:38
1045
原创 Kyuubi vs Spark Thrift Server vs Hive Thrift Server:全面对比与深度解析
在大数据生态系统中,SQL-on-Hadoop 技术一直是一个热门话题。随着数据规模的不断增长,企业和开发者需要高效、灵活的工具来执行分布式 SQL 查询。Kyuubi、Spark Thrift Server 和 Hive Thrift Server 是三种常见的 SQL 服务解决方案,它们各自有不同的设计目标、适用场景和性能特点。本文将深入对比这三者的架构、功能、性能、适用场景以及优缺点,帮助读者更好地选择适合自己业务需求的工具。
2025-03-13 13:31:37
460
原创 Kyuubi + Spark:构建高效的大数据查询与分析平台
Kyuubi 是一个开源的分布式 SQL 服务,基于 Apache Spark 构建,旨在为多租户环境提供高效、稳定的 SQL 查询服务。Kyuubi 的核心目标是通过资源隔离、查询优化和统一管理,提升 Spark 在大规模数据查询中的性能和可用性。Apache Spark 是一个开源的分布式计算框架,以其高性能和易用性在大数据领域广受欢迎。Spark 支持批处理、流处理、机器学习和图计算等多种计算模式。Kyuubi + Spark 的集成为企业提供了一种高效、稳定的大数据查询与分析解决方案。
2025-03-13 10:24:04
933
原创 Alluxio与S3、Hive的深度集成:实现高效数据加载与查询
在大数据生态系统中,Alluxio、S3和Hive是三个非常重要的组件。Alluxio作为一个分布式内存加速层,能够显著提升数据访问速度;S3是亚马逊提供的对象存储服务,广泛应用于数据存储;Hive则是基于Hadoop的数据仓库工具,用于数据查询和分析。本文将详细介绍如何将Alluxio与S3、Hive集成,实现高效的数据加载与查询。
2025-03-13 10:15:56
1027
原创 从入门到实战:手把手教你掌握DeepSeek开源工具的核心用法
DeepSeek的核心优势:轻量级架构与高性能计算的结合,对中文NLP任务的专项优化(如分词、实体识别),开源社区活跃,支持快速迭代
2025-03-03 14:40:14
1088
原创 【实战】Dinky 1.2.1集成Flink 1.18.1:Kubernetes全流程部署指南
USER root#下载dink jar并解压到与DokerFile 同级目录下#需要mysql 驱动# 添加创建软链接的命令注意:dinky 启动需要MySQL驱动。2.构建flink镜像Dockerfile#如有需要可自行加此配置。# 更改 s3-fs-hadoop 目录的所有者和所属组为 flink#如需kafak,可配置。
2025-03-03 10:45:32
607
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人