hive的数据格式

 Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。

其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:Table,External Table,Partition,Bucket。

  1. Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一个相应的目录存储数据。例如,一个表 pvs,它在 HDFS 中的路径为:/wh/pvs,其中,wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录,所有的 Table 数据(不包括 External Table)都保存在这个目录中。
  2. Partition 对应于数据库中的 Partition 列的密集索引,但是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在对应的目录中。例如:pvs 表中包含 ds 和 city 两个 Partition,则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为:/wh/pvs/ds=20090801/ctry=US;对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为;/wh/pvs/ds=20090801/ctry=CA
  3. Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,对应 hash 值为 0 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00000;hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00020
  4. External Table 指向已经在 HDFS 中存在的数据,可以创建 Partition。它和 Table 在元数据的组织上是相同的,而实际数据的存储则有较大的差异。
  • Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。
  • External Table 只有一个过程,加载数据和创建表同时完成(CREATE EXTERNAL TABLE ……LOCATION),实际数据是存储在 LOCATION 后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。当删除一个 External Table 时,仅删除
Hive是一种基于Hadoop的数据仓库工具,它使用SQL查询语言(HQL)来管理大规模数据集。Hive的数据表通常采用类似于关系数据库的表格结构,但其本质是存储在HDFS(分布式文件系统)上的列式存储,这使得大数据的查询更为高效。以下是Hive数据表的一些关键特点: 1. **分区(Partitioning)**: Hive支持按照不同的字段值对表进行分区,这有助于提高查询性能,特别是当数据量非常大时,可以根据某个字段快速定位数据。 2. **桶(Bucketing)**: 类似于分区,桶是将数据分布到特定位置,通常用于哈希分区,以便进行范围查询。 3. **列式存储(Columnar Storage)**: 数据按列而不是行存储,对于大量读取操作来说,能更有效地减少I/O开销。 4. **静态元数据(Metadata)**: Hive的数据表包含元数据信息,如列名、数据类型、表分区等,这对于管理和分析至关重要。 5. **外部表(External Table)**: Hive还支持创建外部表,它们引用的是其他存储系统的数据,如HDFS、S3等,这样可以在不需要移动大量数据的情况下使用数据。 6. **分桶化(Bucketed Tables)**: 当数据需要进行范围查询时,例如时间序列数据,可以利用桶化的特性。 7. **动态分区(Dynamic Partitioning)**: 允许在插入数据时指定新的分区,增加了数据组织的灵活性。 8. **延迟加载(Lazy Loading)**: Hive默认是延迟加载模式,只有在实际访问数据时才会真正加载到内存,节省了内存资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值