(八)Hive中文乱码

 (八)Hive中文乱码

目录

 

正文

回到顶部

Hive注释中文乱码

创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱码

 

create external table movie(
userID int comment '用户ID',
movieID int comment '电影ID',
rating int comment '电影评分',
timestamped bigint comment '评分时间戳',
movieName string comment '电影名字', 
movieType string comment '电影类型', 
sex string comment '性别', 
age int comment '年龄', 
occupation string comment '职业', 
zipcode string comment '邮政编码'
) comment '影评三表合一' 
row format delimited fields terminated by ","
location '/hive/movie';

 

这是因为在MySQL中的元数据出现乱码

针对元数据库metastore中的表,分区,视图的编码设置

因为我们知道 metastore 支持数据库级别,表级别的字符集是 latin1

那么我们只需要把相应注释的地方的字符集由 latin1 改成 utf-8,就可以了。用到注释的就三个地方,表、分区、视图。如下修改分为两个步骤:

1、进入数据库 Metastore 中执行以下 5 条 SQL 语句

(1)修改表字段注解和表注解

alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

(2)修改分区字段注解

alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8 ;
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;

(3)修改索引注解

alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

2、修改 metastore 的连接 URL

 修改hive-site.xml配置文件

 

<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://IP:3306/db_name?createDatabaseIfNotExist=true&amp;useUnicode=true&characterEncoding=UTF-8</value>
    <description>JDBC connect string for a JDBC metastore</description>
</property>

回到顶部

验证

做完可以解决乱码问题

### CentOS 7 下 Hive 显示中文乱码解决方案 #### 修改 MySQL 字符集配置 为了确保数据库能够正确处理中文字符,需要调整 MySQL 的字符集设置。编辑 MySQL 配置文件 `/etc/my.cnf` 或者 `/etc/mysql/my.cnf`: ```ini [client] default-character-set=utf8mb4 [mysql] default-character-set=utf8mb4 [mysqld] character-set-server=utf8mb4 collation-server=utf8mb4_unicode_ci init_connect='SET NAMES utf8mb4' ``` 保存并退出后重启 MySQL 服务以应用更改[^1]。 #### 设置环境变量 确保系统的 locale 设置支持 UTF-8 编码。可以通过修改 `~/.bash_profile` 文件来实现这一点: ```sh export LANG=en_US.UTF-8 export LC_ALL=en_US.UTF-8 ``` 使这些变化生效,运行命令 source ~/.bash_profile。 #### 调整 Hive Metastore 数据库连接参数 当通过 JDBC URL 连接到 MySQL 时,可以在 URL 后面附加一些属性来强制客户端和服务端都使用相同的字符编码方式。例如,在 hive-site.xml 中添加或更新 jdbc:mysql://...?useUnicode=true&characterEncoding=UTF-8 参数[^3]。 ```xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hivemetastore?createDatabaseIfNotExist=true&useSSL=false&serverTimezone=UTC&useUnicode=true&characterEncoding=UTF-8</value> </property> ``` #### 更新 Hive 表结构定义中的字段类型 如果已经存在含有中文数据的表,则可能还需要转换现有列的数据类型为 VARCHAR 类型,并指明其使用的字符集为 utf8mb4。这一步骤取决于具体的应用场景以及之前的设计决策。 #### 测试验证 完上述操作之后,重新启动 Hadoop 和 Hive 组件,尝试再次查询包含中文字符的结果集看是否解决了乱码问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值