
大数据
文章平均质量分 80
进击的小白菜
愿再回首有迹可循~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive | Hive 表如何查看所有分区
Apache Hive 是一个构建在 Hadoop 之上的数据仓库工具,它提供了 SQL 类似的查询语言(称为 HiveQL),使得用户能够更容易地进行大数据处理和分析。在 Hive 中,分区是一种优化查询性能的方法,通过将数据按照一个或多个列的值进行划分,可以显著减少查询时扫描的数据量。本文档将介绍如何在 Hive 中查看表的所有分区信息。通过上述命令,Hive 用户可以轻松地查看和管理表的分区信息,从而更好地利用分区来优化查询性能。原创 2024-11-26 22:25:57 · 3228 阅读 · 0 评论 -
大数据学习|理解和对比 Apache Hive 和 Apache Iceberg
Hive是一个成熟的数据仓库解决方案,特别适合于批处理和数据仓库应用。Iceberg是一个更为现代的数据表格式,提供了更强的事务支持和性能优化,适用于需要更灵活数据管理和实时处理的应用场景。选择 Hive 还是 Iceberg 取决于具体的业务需求和技术背景。如果你的应用需要支持事务处理和更高的读写性能,Iceberg 可能是一个更好的选择。如果你的应用主要是批处理且对现有 Hadoop 生态系统有较高的依赖度,那么 Hive 仍然是一个可行的选择。原创 2024-09-03 22:22:20 · 1298 阅读 · 0 评论 -
大数据|使用Apache Spark 删除指定表中的指定分区数据
Apache Spark 是一个强大的分布式数据处理引擎,支持多种数据处理模式。在处理大型数据集时,经常需要对数据进行分区,以提高处理效率。有时,为了维护数据或优化查询性能,需要删除指定表中的指定分区数据。本文档将介绍如何使用 Spark SQL 和 DataFrame API 来删除指定表中的指定分区数据,并提供使用时的注意事项以及常见相关问题及其处理方法。原创 2024-07-26 23:13:56 · 1878 阅读 · 0 评论