数据仓库问题总结

本文总结了数据仓库中的各种问题,包括关系模型中的主键约束、MySQL的concat函数、SQL Server的描述、ETL工具、OLAP核心、数据探索阶段的内容、Spark计算流程、事实表和维度表设计以及Hive表关联查询的数据倾斜及其解决策略。通过这些知识点,有助于理解数据仓库的设计和管理。

1.在关系模型中,实现“关系中不允许出现相同的元组”的约束是通过 “主键” 完成的。

2.在MySql中,concat函数的作用是是将传入的参数连接成为一个字符串,则concat(’aaa’,null,’bbb’)的结果是( NULL)

3.关于添加带自增列的数据:自增的列无须显式地添加。如需添加全部字段数据时,仅需表名,可省略全部字段

4.YARN支持的调度语义:

    请求节点nodeX上5个Container:虚拟CPU个数为2,内存量为2GB
    请求机架rackX上3个Container:虚拟CPU个数为4,内存量为3GB

5.SQL Server的描述:

          关系型数据库、企业级数据库、客户机/服务器数据库

6.在SQL Server中,要防止大于100的数被保存到int类型的列,可以使用----检查约束

7.ETL工具:datastage、kettle、tableau

8.OLAP的核心是:多维分析

9.在文件a.txt中查找某字符串'str'     grep str a.txt

10.数据库系统中采用封锁技术的目的是为了保证一致性

11.关于Hive 中的压缩格式 RCFile、TextFile、SequenceFile

TextFile是Hive默认格式,不作压缩,磁盘及网络开销较大。可以结合Gzip, Bzip2使用,但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作
SequenceFile 是Hadoop API提供支持的一种二进制文件,具有使用方便,可分割,可压缩的特点,支持三种压缩选择:NONE, RECORD, BLOCK。RECORD压缩率低,一般建议使用BLOCK压缩
相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存储方式,数据加载时性能消耗较小,且具有较
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值