hive 常见set字段1

原创

已于 2024-01-24 21:22:13 修改 · 378 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hive

于 2021-09-13 13:57:11 首次发布

本文介绍了Hive的配置优化技巧，包括设置MapReduce作业队列、内存参数、分区策略等，以提升查询效率。同时，展示了如何使用HQL选择除特定字段外的所有字段，并显示表头。这些优化措施对于大数据处理场景下的性能提升至关重要。

use adst;
set mapreduce.job.queuename=${hiveconf:mp_queue};
set mapreduce.reduce.java.opts=-=-Xmx10000m;
set mapred.reduce.tasks=5;
set mapred.min.split.size.per.node=3200000;
set mapred.min.split.size.per.rack=3200000;
set mapred.max.split.size=25600000;
set hive.auto.convert.join=true;
set hive.groupby.skewindata=true;
set hive.mapjoin.smalltable.filesize=25000000;
set hive.map.aggr=true;
set hive.exec.orc.default.stripe.size=268435456;
set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.dynamic.partitions.pernode=100000;
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=10;
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.reducers.bytes.per.reducer=107374182;
set orc.compress.size=4096;

1. Hive 中select除了某些字段之外的剩余所有字段

-- 选择tableName表中除了name、id、pwd之外的所有字段

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MusicDancing

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【大数据Hive】hive 多字段分隔符使用详解

congge_study的博客

03-03

8456

hive 多字段分隔符使用详解

HIVE 增加修改删除字段

最新发布

2501_93931247的博客

11-02

306

ORC（Optimized Row Columnar）是Hive的高效列式存储格式，通过合理配置压缩和存储参数可显著提升性能。）： $$ \text{推荐值} = \text{HDFS块大小} \times 2 $$输出包含压缩比、stripe统计等信息，用于验证优化效果。收集统计信息，优化器可自动选择最优访问路径。分析查询计划，确保谓词下推生效。

hive文件存储格式orc和parquet详解_orc文件

2501_90210351的博客

01-12

974

包含了stripe列表，每个stripe包含的行数，以及每个列的数据类型。包含每个列的最大值，最小值，行计数，求和等信息。

Hive语句前的常见设置

ydq1206的博客

12-04

668

1.hive.cli.print.header=true 是否显示查询结果的列名，默认为不显示 2.set hive.exec.parallel=true; 参数控制在同一个sql中的不同的job是否可以同时运行,默认为false. 3.hive.map.aggr=true 决定是否可以在 Map 端进行聚合操作，从而减轻清洗阶段数据传输和Reduce阶段的执行时间

hive.exec.orc.default.stripe.size相关

xingyuelhb的博客

12-26

1193

1)因此在适当增大hive.exec.orc.default.stripe.size, "256*1024*1024"的值可提高效率，就像适当提高blocksize也可以加快效率原理类似.也就是对应的default设置值：hive.exec.orc.default.stripe.size, "256*1024*1024 " stripe的默认大小。适当加大hive.exec.orc.default.stripe.size配置，以及在orc表比较大的情况下使用BI策略可有效提高效率，

hive表新增字段或者修改字段

04-20

1. 如果表是外部表，需要将其转换为内部表，以便Hive能够控制其元数据。这可以通过以下命令完成： ```sql alter table 数据库名.表名 set tblproperties('EXTERNAL' = 'FALSE'); ``` 2. 使用 `ALTER TABLE` 命令...

Hive新增字段相关问题

weixin_42937781的博客

07-08

1372

Hive新增字段导致旧分区新增数据新增字段展示异常。

hive数据库字段的操作

airui001的博客

03-04

2428

HIVE数据库字段的添加，修改，删除新接触了hive数据库，发现hive语句和其他SQL语句有些许不同，在此记录一下 1.字段新增新增字段语句的字段名称和类型有所不同。假如添加两个字段column_1字段类型为string，column_2字段类型为int，hive中的语法为： alter table table_name add columns (column_1 string,column_2 int) 2.修改字段 alter table table_name change column__1

Hive数据类型的讲解----入门到入土（七）

weixin_42947670的博客

07-29

415

第七章 Hive数据类型的讲解在hive中，数据类型分为基础数据类型和复杂数据类型两大类型 7.1 数据类型分类类型描述字面量示例基本类型 BOOLEAN true/false TRUE TINYINT 1字节的有符号整数 -128~127 1Y SMALLINT 2个字节的有符号整数，-32768~32767 1S INT 4个字节的带符号整数 1 BIGINT 8字节带符号整数 1L FLOAT 4字节单精度浮点数 1.0 DOUBLE 8

数据分析利器之hive优化十大原则

weixin_34308389的博客

02-17

466

hive之于数据民工，就如同锄头之于农民伯伯。hive用的好，才能从地里（数据库）里挖出更多的数据来。用过hive的朋友，我想或多或少都有类似的经历：一天下来，没跑几次hive，就到下班时间了。 hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。一. 表连接优化 ...

Hive（十）Hive性能调优总结

dengshuabi6933的博客

08-12

3784

一、Fetch抓取 1、理论分析 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conv...

使用 tez 执行引擎时执行 hive 启动两个 application 的解决办法

houzhizhen的专栏

11-25

2810

在 hive-site.xml, 配置执行引擎为 tez。 <property> <name>hive.execution.engine</name> <value>tez</value> <description> Expects one of [mr, tez, spark]. Chooses execution engine. Options are: mr (Map reduce,

Hive-ORC文件存储格式

weixin_30279671的博客

05-31

850

　　ORC文件格式是从Hive-0.11版本开始的。关于ORC文件格式的官方文档，以及基于官方文档的翻译内容这里就不赘述了，有兴趣的可以仔细研究了解一下。本文接下来根据论文《Major Technical Advancements in Apache Hive》中的内容进行深入的研究。一、ORC文件格式　　ORC的全称是(Optimized Record Colum...

Hive 常用参数整理

BITDDD小栈

11-17

5000

一.引言上周遇到了大表join大表的情况，调试了一天终于调通，期间发现对hive设置参数十分不熟悉才会导致调优花了一天时间，特此整理常用参数供以后参考。二.场景 1.Hive 动态分区 set hive.exec.dynamic.partition.mode=nonstrict; 动态分区的好处是可以根据表字段自动将数据加入到指定分区，相比于写死固定分区更加便捷。以下实例基于your_table是单分区表。原始分区示例: hive -e " insert overwrite tab.

Hive调优参数总结

cuichunchi的博客

02-17

1787

MR程序优化参数 1、客户端显示以及job任务名和优先级 ##打印表头 set hive.cli.print.header=true; set hive.cli.print.row.to.vertical=true; set hive.cli.print.row.to.vertical.num=1; ##显示当前数据库 set hive.cli.print.current.db=true; ##job任务名 set mapreduce.job.name=p_${v_date}; ##job优先级 se.

Hive表变更字段名

10-23

1. Hive中如何新增字段？ 2. 修改Hive表字段时如何避免数据丢失？ 3. Hive分区表修改字段有什么特殊注意事项？确保回答真实可靠。 </think>### Hive表变更字段名的方法在Hive中，修改表字段名（即重命名列）是...