
teradata
文章平均质量分 51
_假象
这个作者很懒,什么都没留下…
展开
-
teradata Join策略
(–本文是个人学习和使用过程中的总结,如有错误欢迎指正 )teradata关联可分为四种策略: 1:Merge Join(Exclusion) 2:Nested Join 3:Hash Join 4:Product Join(including Cartesian Product joins)Merge Join 比较高效的Join: 1:通常是等值(=)关联 2:关联的数据行在原创 2016-01-14 23:48:08 · 991 阅读 · 0 评论 -
teradata PI -- Join的影响
我们知道数据仓库是用来支撑我们的数据展现、多维度分析甚至是数据挖掘,所以单单检索一行或者几行数据在数据仓库中是几乎不存在的。 我们总是希望用多维度的视角去观察我们的数据,那我们的事实表就必须和我们N个维度表关联,以实现我们多维、多粒度的数据观察。这就要求我们的数据仓库要有强劲的处理Join的能力,幸运的是teradata在处理这方面的能力的确很强大。teradata要求我们做表关联时相同的值必须在原创 2016-01-14 22:02:17 · 1582 阅读 · 1 评论 -
teradata PI -- 数据检索
我们知道PI对于数据分布非常重要,同样的PI对于数据的检索也起到了至关重要的作用。 teradata中数据检索最快的方式被称为one-AMP operation,而以PI列作为WHERE条件来检索都是此类型的操作,不论是UPI还是NUPI。使用PI检索数据流程图: 虽然此操作是最快检索数据的方式,但在数据仓库中该类型的操作却不多见。此处一笔带过,我们重点介绍下PI对teradata Join 的原创 2016-01-11 22:44:49 · 1363 阅读 · 0 评论 -
teradata PI-- 数据分布
(–本文是个人学习和使用过程中的总结,如有错误欢迎指正)teradata Primary Index简称PI teradata 建表时强烈建议明确指定PI列(尽管不指定PI teradata会根据DBScontrol配置自动选定PI),可以是一列或者多列,最多64列 PI主要有三个作用:数据分布(Data Distribution)快速检索数据(Fastest way to retrieve原创 2016-01-11 14:32:48 · 4802 阅读 · 0 评论 -
teradata DISTINCT vs GROUP BY
**(–本文是个人学习和使用过程中的总结,如有错误欢迎指正。转载请注明出处)**常听到有关teradata中DISTINCT和GROUP BY那个性能更好的问题,是应该用SELECT COLUMN GROUP BY 1还是SELECT DISTINCT COLUMN呢?为了确定什么情况用DISTINCT,什么情况用GROUP BY,首先我们应该理解两者的工作方式。**DISTINCT :**数据会原创 2016-01-11 13:12:56 · 1520 阅读 · 0 评论 -
teradata数据库--常用的数据字典表
teradata使用过程中我们多多少需要查看下 created objects的相关信息,对于查看表结构一句SHOW TABLE TNAME就可以完全胜任。假设我们有诸如一下的需求呢:查看那些表是FALLBACK或者NO FALLBACK统计下某库下总共有多少个view 多少个Macro 多少个Stored Procedure查询表的约束查询那些表是以XXXX列为PI的原创 2016-01-08 14:09:10 · 18598 阅读 · 0 评论 -
teradata EXPLAIN 读懂关键字--读懂执行计划
**(–本文是个人学习和使用过程中的总结,如有错误欢迎指正 )**对于teradata SQL级别的优化,使用EXPLAIN查看执行计划基本上是最直接也最好用的。EXPLAIN 展示出来的内容重要但同时也很多,我们只需要提取其中的关键字便可大致描述出来我么SQL的执行过程。**数据检索涉及到AMPs:** All-AMPs retrieve step, Single-AMP retrieve step等这原创 2016-01-24 00:51:03 · 2861 阅读 · 0 评论 -
teradata 预先探查数据分布
teradata是一款MPP架构的数据库,数据装载到数据库的时候会被切分到不同的节点,计算数据的时候每个节点负责计算各自的数据并返回给MPL(Message Passing Layer)做最后的计算。使用teradata以来总有一个困惑,数据装载到数据库后才发现表的倾斜度不在我们规定的阀值之内(尽管从技术角度讲选择一个重复值低的字段做PI比较合理 ),特别是大表,数据倾斜影响MPP的性能。因此原创 2016-01-05 15:52:48 · 2281 阅读 · 1 评论 -
teradata ANSI extension-QUALIFY
(–本文是个人学习和使用过程中的总结,如有错误欢迎指正 )假设我们有下面表,STATISTICAL_DATE、PROVINCE_CODE、 TOTAL_SCORE三列,我们希望取出来每个PROVINCE_CODE下C列最小值 对应的数据2015/9/30 | 11000000 | 80.73252015/10/31 | 11000000 | 80.6672015/原创 2016-02-04 17:53:13 · 1390 阅读 · 0 评论