
数据仓库
文章平均质量分 52
菜鸟冲锋号
海明威说过:这个世界如此美好,值得你我为之奋斗。我更认同后半句。。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive SQL中,使用WITH子句和创建临时表性能对比
新版本(如Hive 3.0+)对CTE优化更好,可能自动物化多次引用的CTE,减少性能差异。Hive优化器可能将CTE内联到主查询中,生成更优的执行计划(如合并操作、减少中间步骤)。对中间结果进行多次转换或需要手动优化执行顺序时,临时表提供更灵活的控制。若同一中间结果被多次使用(如多表JOIN或复杂子查询),临时表可。CTE是逻辑临时结果集,仅在查询生命周期内存在,命令分析两种方式的执行计划,观察是否有冗余操作。的中间结果,避免临时表创建和清理的开销。被多次使用,显式临时表可能更优。-- 显式创建临时表。原创 2025-02-24 18:26:36 · 1238 阅读 · 0 评论 -
hdfs文件复制方法
hdfs文件复制,并拷贝修复数据-- 1、复制表结构create table t1 like t2;-- 2、复制文件数据hadoop distcp -update -skipcrccheck -m 300 hdfs://ns1/warehouse/ods.db/t2 hdfs://ns1/warehouse/bkdata.db/t1-- 3、修复表元数据msck repair table t1hdfs 加载数据-- 1、创建新表use db1;create table db1.te原创 2022-03-15 09:49:53 · 4647 阅读 · 0 评论 -
hive 运行任务报错 Error: Java heap space 解决办法
Error: Java heap space 解决办法使用MR引擎时:set mapreduce.map.memory.mb=12000;set mapreduce.reduce.memory.mb=12000;set mapred.map.child.java.opts=-server -Xmx10000m -Djava.net.preferIPv4Stack=true;set io.sort.mb=100;set mapred.reduce.child.java.opts=-server -原创 2022-03-15 09:39:53 · 4164 阅读 · 1 评论 -
Erwin通过excel导入实体
补充内容。具体步骤可以参考 https://wenku.baidu.com/view/8029b1a9f12d2af90342e67a.html需要指出的是,由于Erwin版本各有不同,最好的方法是用当前版本,新建实体,导出,用导出模板导入。 以上。2018.1.2 话说新年第一天上班。原创 2018-01-02 10:56:32 · 4933 阅读 · 0 评论 -
Erwin 根据映射文件自动命名英文
转载出处:https://blog.youkuaiyun.com/huaxin520/article/details/7799046ERwin中分为逻辑模型和物理模型两种。在创建逻辑模型时,我们都是通过中文设计,这样就更直观的显示模型的作用;物理模型,是直接对数据库进行关联,对数据库进行操作,因此在给物理模型命名时,需要使用英文(不嫌麻烦、不嫌累,用中文也可以)。问题随之而来,如何将逻辑层的中文名,通过映射文...转载 2018-07-02 10:57:21 · 1306 阅读 · 0 评论 -
数据仓库一般增量数据处理策略
转载出处:https://www.cnblogs.com/biwork/archive/2013/11/27/3446236.html开篇介绍通常在数据量较少的情况下,我们从一个数据源将全部数据加载到目标数据库的时候可以采取的策略可以是:先将目标数据库的数据全部清空掉,然后全部重新从数据源加载进来。这是一个最简单并且最直观的并且不容易出错的一种解决方案,但是在很多时候会带来性能上的问题。...转载 2018-08-29 09:37:34 · 5271 阅读 · 1 评论 -
mysql没有partition by 怎么实现分组取第一行呢
直接上代码:有时间在研究吧SELECT TABLE_NAME,SUBSTRING_INDEX(GROUP_CONCAT(id ORDER BY id DESC ),',',1)FROM mgr_tableWHERE upper(TABLE_NAME) in ('')group by table_name原创 2018-09-30 16:17:25 · 6623 阅读 · 0 评论