null的数据类型

本文探讨了Oracle数据库中NULL值的默认数据类型,并通过一个排序案例解释了NULL被默认视为字符类型时可能引发的问题及解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Oracle的NULL代表的含义是不确定,那么不确定的东西也会有确定的数据类型吗?或者换个说法,NULL在Oracle中的默认数据类型是什么,下面就来探讨这个问题。

 

 

首先公布答案,NULL的默认类型是字符类型,具体是VARCHAR2还是CHAR,这个并不清楚,不过我个人怀疑是VARCHAR2的可能性更大一些。

 

我们知道一个字段不管是何种类型的,都可以插入NULL值,也就是说,NULL可以随意的转换为任意的类型。

而且,绝大部分的函数输入值为NULL,返回的结果也为NULL,这就阻止了我们通过函数的返回结果判断NULL的类型的企图。我们最常用来分析数据的DUMP函数,这回也实效了:

SQL> SELECT DUMP(NULL) FROM DUAL;

DUMP
----
NULL

而且试图通过CREATE TABLE AS来判定NULL的类型也是不可能的:

SQL> CREATE TABLE T AS SELECT TNAME, NULL COL1 FROM TAB;
CREATE TABLE T AS SELECT TNAME, NULL COL1 FROM TAB
*
ERROR 位于第 1 行:
ORA-01723: 不允许长度为 0 的列

可能有人会产生疑问,既然各种方法的行不通,你是怎么得到NULL的默认类型的?也许还有人会想,既然NULL可以隐式的转化为任意的类型,讨论NULL的默认类型是否有意义呢?

下面就是我发现NULL的数据类型的例子,同时说明了如果不注意NULL的数据类型可能会出现的问题。

由于原始的SQL过于复杂,我这里给出一个简化的例子。

SQL> create table t (id number);

表已创建。

SQL> insert into t values (1);

已创建 1 行。

SQL> insert into t values (8);

已创建 1 行。

SQL> insert into t values (0);

已创建 1 行。

SQL> insert into t values (15);

已创建 1 行。

SQL> commit;

提交完成。

需要按照T中的ID的升序显示数据,SQL如下:

SQL> select * from t order by id;

ID
----------
0
1
8
15

需求还有一点点小的要求,对于0值这个比较特殊的值,在所有非0值的后面显示。当然实现的方法比较多,比如使用UNION ALL将非0值和0值分开,或者将0值转换为一个很大的数值。

由于ID的最大值不确定,且考虑使用一个简单的SQL完成,我选择了在排序的时候将0值转化为NULL的方法,这样利用排序时NULL最大的原理,得到我希望的结果。

SQL如下:

SQL> select * from t order by decode(id, 0, null, id);

ID
----------
1
15
8
0

0值确实如我所愿排在了最后,但是结果怎么“不对”了!

SQL> select decode(id, 0, null, id) from t;

DECODE(ID,0,NULL,ID)
----------------------------------------
1
8

15

看看DECODE函数的结果,这回明白了,原来DECODE的结果变为了字符类型。字符类型结果在SQLPLUS显示左对齐,而数值类型是右对齐。

在DECODE函数中,输入的4个参数中两个ID和0都是NUMBER类型,只有NULL这一个输入值类型不确定,莫非是由于NULL的类型是字符类型?

猜测只是猜测,还需要确切的证据证明这一点,下面看看标准包中DECODE函数的定义。

下面的DECODE函数定义是从STANDARD中摘取出来的部分内容:

function DECODE (expr NUMBER, pat NUMBER, res NUMBER) return NUMBER;
function DECODE (expr NUMBER,
pat NUMBER,
res VARCHAR2 CHARACTER SET ANY_CS)
return VARCHAR2 CHARACTER SET res%CHARSET;
function DECODE (expr NUMBER, pat NUMBER, res DATE) return DATE;
function DECODE (expr VARCHAR2 CHARACTER SET ANY_CS,
pat VARCHAR2 CHARACTER SET expr%CHARSET,
res NUMBER) return NUMBER;
function DECODE (expr VARCHAR2 CHARACTER SET ANY_CS,
pat VARCHAR2 CHARACTER SET expr%CHARSET,
res VARCHAR2 CHARACTER SET ANY_CS)
return VARCHAR2 CHARACTER SET res%CHARSET;
function DECODE (expr VARCHAR2 CHARACTER SET ANY_CS,
pat VARCHAR2 CHARACTER SET expr%CHARSET,
res DATE) return DATE;
function DECODE (expr DATE, pat DATE, res NUMBER) return NUMBER;
function DECODE (expr DATE,
pat DATE,
res VARCHAR2 CHARACTER SET ANY_CS)
return VARCHAR2 CHARACTER SET res%CHARSET;
function DECODE (expr DATE, pat DATE, res DATE) return DATE;

通过观察上面的定义,我们不难发现,虽然Oracle对DECODE函数进行了大量的重载,且DECODE函数支持各种的数据类型,但是DECODE函数具有一个规律,就是DECODE函数的返回值的类型和DECODE函数的输入参数中第一个用来返回的参数的数据类型一致。可能不太好理解,举个简单的例子:

SQL> select decode(id, 1, '1', 2) from t;

D
-
1
2
2
2

SQL> select decode(id, '1', 1, '2') from t;

DECODE(ID,'1',1,'2')
--------------------
1
2
2
2

从这两个简单的例子就可以看出,DECODE的返回值的数据类型和DECODE函数中第一个表示返回的参数的数据类型一致。

从这点就可以看出,NULL的默认数量类型是字符类型,这才导致DECODE的结果变成了字符串,而查询根据字符串的排序比较,因此’15’小于’8’。

知道了问题的原因,解决的方法就很多了,比如:

SQL> select * from t order by decode(id, 1, 1, 0, null, id);

ID
----------
1
8
15
0

SQL> select * from t order by to_number(decode(id, 0, null, id));

ID
----------
1
8
15
0

SQL> select * from t order by decode(id, 0, cast(null as number), id);

ID
----------
1
8
15
0

SQL> select * from t order by decode(id, 0, to_number(null), id);

ID
----------
1
8
15
0

<think>好的,我现在需要帮助用户找到关于jieba库中词性标注的使用案例。用户已经提供了之前的对话历史和一些引用内容,我需要仔细分析这些信息,并结合用户当前的问题来生成合适的回答。 首先,回顾用户的问题历史,用户之前询问了Jaccard相似度的案例,现在转向了jieba词性标注功能。根据引用内容,引用[1]、[2]、[3]、[4]都提到了jieba词性标注,特别是使用`jieba.posseg`模块进行分词和词性标注。用户现在明确请求使用案例和示例代码,因此需要提供一个清晰的示例,并解释每个步骤。 接下来,我需要确认如何正确使用jieba进行词性标注。根据引用[2]和[3],默认模式下使用`jieba.posseg.cut()`,而paddle模式需要启用`enable_paddle()`,并且参数`use_paddle=True`。同时,示例代码中展示了如何遍历分词结果,获取每个词及其词性标签。 用户可能需要基础示例和进阶用法,比如停用词过滤或特定词性提取。引用[4]中的代码展示了如何将分词结果拼接成字符串,这可能对用户有帮助。此外,引用[1]提到词性标注集采用北大计算所的标签,所以需要解释常见的标签含义,帮助用户理解输出结果。 需要注意的是,用户可能遇到的环境配置问题,比如paddle模式需要安装paddlepaddle-tiny库,因此在示例中应添加相关的安装说明和注意事项,避免用户运行时出错。 最后,生成相关问题时要围绕词性标注的应用场景、不同模式的区别、标签含义和性能优化等方面,确保覆盖用户可能感兴趣的扩展话题。</think>以下是一个完整的jieba词性标注使用案例,结合引用[1][2][3][4]的实现细节优化后的版本: ### 基础词性标注案例 ```python import jieba.posseg as pseg # 示例文本(引用[2][3]的案例扩展) text = "我爱清华大学的人工智能课程" # 默认模式分词标注 words = pseg.cut(text) # 使用jieba默认分词器[^2] # 输出结果(引用[4]格式优化) for word, flag in words: print(f"{word} [{flag}]", end=" | ") # 输出:我 [r] | 爱 [v] | 清华大学 [nt] | 的 [uj] | 人工智能 [n] | 课程 [n] | ``` ### Paddle模式案例 ```python # 需要先安装:pip install paddlepaddle-tiny jieba.enable_paddle() # 启动paddle模式(0.40+版本支持[^2]) paddle_words = pseg.cut(text, use_paddle=True) # 专名识别更准确 print("\nPaddle模式结果:") for word, flag in paddle_words: print(f"{word} [{flag}]", end=" | ") # 输出:我 [r] | 爱 [v] | 清华大学 [ORG] | 的 [u] | 人工智能 [n] | 课程 [n] | ``` ### 进阶应用:提取特定词性 ```python def extract_nouns(text): """提取名词(包含专有名词)""" words = pseg.cut(text) return [ (w.word, w.flag) for w in words if w.flag.startswith('n') ] print("\n名词提取:", extract_nouns(text)) # 输出:[('清华大学', 'nt'), ('人工智能', 'n'), ('课程', 'n')] ``` ### 关键说明(引用[1][2]) 1. **标注集差异**: - 默认模式使用24个标签(如:n=名词,v=动词) - Paddle模式增加4个专名标签:`ORG`(机构), `LOC`(地点), `TIME`, `PER`(人名)[^2] 2. **常用词性标签**: ```python # 部分北大标注集示例(完整列表见引用[5]) n 名词 v 动词 t 时间 m 数词 r 代词 a 形容词 ns 地名 nt 机构团体 ``` ### 注意事项 1. 切换模式时需先执行`jieba.enable_paddle()` 2. Paddle模式需要额外安装依赖库 3. 专名识别效果:`清华大学`在默认模式标注为nt(机构),Paddle模式标注为ORG
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值