
数据仓库
文章平均质量分 93
想念@思恋
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【面试宝典】70道Hive高频题库整理(附答案背诵版)
Hive是一个基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。Hive定义了简单的SQL查询语言称为HiveQL,该语言允许熟悉SQL的用户查询数据。同时,Hive提供了一个元数据存储,存储了所有表的元数据信息。应用场景举例:假设我们有一个电商网站,每天都会产生大量的交易数据,我们需要分析这些数据以了解销售情况、用户行为等信息。原创 2024-07-28 00:31:32 · 5873 阅读 · 0 评论 -
【面试宝典】68道Hbase高频题库整理(附答案背诵版)
Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它利用HBase技术在HDFS上提供了类似于Bigtable的能力。换句话说,Hbase是Apache Hadoop生态系统中的一部分,可以为大数据应用提供快速的随机读写访问。为了更好地理解,我们可以将Hbase想象成一个巨大的表格,这个表格可以存储数十亿行和数百万列的数据。但与传统的关系型数据库不同,Hbase更适合存储非结构化和半结构化的稀疏数据。原创 2024-07-27 21:58:44 · 5475 阅读 · 0 评论 -
【面试宝典】32道HDFS高频题库整理(附答案背诵版)
HDFS,即Hadoop Distributed File System,是Hadoop分布式文件系统。它是一个专门为了存储大量数据而设计的文件系统,能够在廉价的商用硬件上提供高吞吐量的数据访问,非常适合那些有大量数据集的应用程序。HDFS的设计目标是处理大文件,它支持的文件尺寸范围很广,可以从几百MB到几十TB。存储大规模数据:HDFS能够存储非常大的文件,适用于处理大规模数据集,比如网络日志、卫星图像数据等。高容错性:HDFS通过将数据分成多个块并在多个服务器之间进行复制来提供高度的容错性。原创 2024-07-23 23:37:27 · 5820 阅读 · 0 评论 -
【面试宝典】10道数据仓库高频题整理(附答案背诵版)
不同的数据仓库建模方式适用于不同的场景和需求。星型和雪花模式因其简单性和效率而广泛应用于许多数据仓库项目中。星座模式适合复杂的分析需求,而第三范式模式则更注重数据的规范化和一致性。在选择合适的建模方式时,需要考虑数据仓库的规模、复杂度,以及业务用户的查询需求和数据分析的目标。原创 2024-07-21 13:36:52 · 6666 阅读 · 0 评论