原来Oracle也不喜欢“蜀黍”

最新推荐文章于 2021-08-31 15:19:46 发布

weixin_34080903

最新推荐文章于 2021-08-31 15:19:46 发布

阅读量53

点赞数

CC 4.0 BY-SA版权

文章标签：数据库

原文链接：https://yq.aliyun.com/articles/286716

在部署脚本时遇到ORA-01756错误，分析发现与字符集设置不一致有关，通过调整客户端字符集解决乱码问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天在部署一个脚本的时候，碰到了一个奇怪的问题，脚本运行过程中报了一个ora错误
ORA-01756: quoted string not properly terminated

看这个错误似乎是哪里的标点符号出了问题，没有正确结束，本来这个问题看起来很明显，很可能是格式的问题，但是奇怪的是插入中文，有的语句可以，有的就不可以。
我们先来看看环境变量的设置，然后复现一下这个问题
$ echo $NLS_LANG
American_America.zhs16gbk
$ locale
LANG=en_US
LC_CTYPE="en_US"
LC_NUMERIC="en_US"
LC_TIME="en_US"
LC_COLLATE="en_US"
LC_MONETARY="en_US"
LC_MESSAGES="en_US"
LC_PAPER="en_US"
LC_NAME="en_US"
LC_ADDRESS="en_US"
LC_TELEPHONE="en_US"
LC_MEASUREMENT="en_US"
LC_IDENTIFICATION="en_US"
LC_ALL=
查看数据库字符集
SQL> select *from database_properties where property_name='NLS_CHARACTERSET'
PROPERTY_NAME PROPERTY_VALUE DESCRIPTION
------------------------------ ------------------------------ ------------------------------
NLS_CHARACTERSET ZHS16GBK Character set

复现问题
创建一个临时表test,然后向里面插入两条记录
SQL> create table test(id number,title varchar2(20));
Table created.
第一条记录没有问题
SQL> insert into test values(1,'你好');
1 row created.
当尝试插入“蜀黍”的时候就爆了格式错误，难道Oracle不喜欢这种称谓？
SQL> insert into test values(2,'蜀黍');
ERROR:
ORA-01756: quoted string not properly terminated
如果在后面加一个空格，就可以了
SQL> insert into test values(2,'蜀黍 ');
1 row created.
我们来简单看一下，是否那个空格还在那儿。
SQL>select '>'||title||'<',id from test
'>'||TITLE||'<' ID
---------------------- ----------
>蜀黍 < 2
还不甘心，决定使用trim来格式化一下，语句运行成功，但是没有效果，空格还在那儿。
删除第一条记录，注意力就关注在
delete from test where id=1;
SQL> update test set title=trim(title);
1 row updated.
SQL> select '>'||title||'<',id from test;
'>'||TITLE||'<' ID
---------------------- ----------
>蜀黍 < 2
以上的方法和测试都不见效，那就使出大招，看看dump的结果
SQL> select dump(title) from test;
DUMP(TITLE)
--------------------------------------------------------------------------------
Typ=1 Len=7: 232,156,128,233,187,141,32
可以看到末尾显示是32，是一个空格
SQL> select '>'||chr(32)||'<' from dual;
'>'
---
> <

整个字符串占用了7个字节，空格占用一个，即每个汉字占用3个，这个方式应该是在字符集为UTF-8的情况

查看客户端中设置的字符集，还确实就是UTF-8

修改secureCRT的字符集为默认的方式，即支持中文，然后再次插入，就没有问题了。
SQL> insert into test values(2,'蜀黍 ');
1 row created.
这个时候重新审视数据，发现原来插入的那条记录已经显示为乱码了。说明最开始插入就有字符集的问题了。
SQL> select * from test;
ID TITLE
---------- --------------------
2 铚?榛?
2 蜀黍
使用dump的方式可以看到两者还是有着天壤之别。
SQL> select dump(title) from test;
DUMP(TITLE)
--------------------------------------------------------------------------------
Typ=1 Len=7: 232,156,128,233,187,141,32
Typ=1 Len=5: 202,241,202,242,32
这个时候我们再来看一看dump的结果，可以看到在UTF-8的情况是每个汉字占用3个字节，在GBK模式下，是占用2个字节。
所以字符集的问题总是一个热点问题，客户端的设置也尤为重要，需要考虑字符集的兼容性。