数据分布不均衡会导致在查询该列的时候, 要么走全表扫描, 要么走索引扫描, 这个时候很容易走错执行计划。说白了就是判断列适不适合走索引(根据where条件后跟的值不同,返回结果也不同,那么该列走不走索引的结果也不同)。
基数高的列,一般数据分布一定均衡,比如主键列
1 a
2 b
3 c
。。。。。。因为他没有重复的,优化器认为他每一个条件过滤出来的都只占一行,所以在执行计划里就会预估过滤或者返回出一行,但是如果分布不均匀的数据,我某个条件过滤出占总行数50%以上的数据,由于没收集直方图,导致执行计划预估为1行,那么执行计划就肯定走错了。!
如果没有对基数低的列收集直方图统计信息, 基于成本的优化器(CBO)会认为该列数据分布是均衡的(就会默认去走索引,这时候如果返回的数据很多,那么明显就走了错误的执行计划)。
以测试表test为例, 用实验讲解直方图。
首先我们对测试表test收集统计信息,在收集统计信息的时候, 不收集列的直方图, 语句for all columns size 1表示对所有列都不收集直方图。
BEGIN
DBMS_STATS.GATHER_TABLE_STATS(ownname => 'TEST',
tabname => 'TEST',
estimate_percent => 100,
method_opt => 'for all columns size 1',
no_invalidate => FALSE,