- 博客(16)
- 收藏
- 关注
原创 linux之find详解:快速查找文件应用
0.查看文件详情[root@master ~]# stat /usr/share/vim/vim74/syntax/syntax.vim File: ‘/usr/share/vim/vim74/syntax/syntax.vim’ Size: 1228 Blocks: 8 IO Block: 4096 regular fileDevice: fd0...
2018-12-20 17:52:18
526
原创 基于eclipse工具使用 JDBC 连接 Hive
1.启动hadoop集群[hadoop@master ~]$ start-all.sh 2.启动元数据metastore[hadoop@master ~]$ hive --service metastoreStarting Hive Metastore Server18/12/19 14:48:55 WARN conf.HiveConf: HiveConf of name...
2018-12-20 11:46:17
916
原创 oracle如何将以固定分隔符(逗号)分隔的多行字符串拆分为多行(表生成)
--将多行字符串拆分with p as --构建数据临时表 (select 1 as id, 'aa,bb,cc,dd,ee' as split_string, 1 as num from dual union all select 2, 'ff,gg,hh,ii,jj,kk', 3 from dual union all select 3, 'aa,bb,...
2018-12-19 09:57:21
2979
原创 hive的streaming:an error occurred when trying to close the Operator running your custom script.
在对hive 进行 select 查询的时候 我们可以编写 python 、php 、perl等脚本来进行相应的数据处理,我们要用到hive 的 transform 和 using。 在使用的时候容易报如图所示的错误:an error occurred when trying to close the Operator running your custom script.hive...
2018-12-14 14:29:36
3230
转载 数据仓库(六)之数据质量篇
概述 数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。 数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据...
2018-12-13 15:48:31
403
转载 数据仓库(五)元数据管理
概述 元数据通常定义为”关于数据的数据”,在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息。元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。 元数据类型  ...
2018-12-13 15:47:05
336
转载 数据仓库(四)之ETL开发
概述 ETL是数据仓库的后台,主要包含抽取、清洗、规范化、提交四个步骤,传统数据仓库一般分为四层模型。                  
2018-12-13 15:45:48
349
转载 数据仓库(三)之架构篇
概述 架构是数据仓库建设的总体规划,从整体视角描述了解决方案的高层模型,描述了各个子系统的功能以及关系,描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么,架构就是回答怎么做的问题。 架构的价值 &...
2018-12-13 15:44:17
235
转载 数据仓库(二)之维度建模篇
概述 维度建模是一种将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析...
2018-12-13 15:43:11
517
转载 数据仓库(一)之需求篇
概述  业务需求定义了企业的业务人员为了完成其工作,进而实现企业目标,一定要具备的东西。包括功能性需求和提供的服务。它是数据仓库的核心,从广度和深度上做好需求调研为数据仓库建设建立良好的开端。      &
2018-12-13 15:41:24
381
原创 Centos 7.5安装eclipse
1.查看系统版本号和内核版本信息#查看系统版本号cat /etc/redhat-release#查看系统内核信息uname -a 运行结果: 2. 下载eclipse软件下载地址:https://www.eclipse.org/downloads/packages/release/Luna/SR2ps:1.下载与操作系统版本对应的Eclipse软...
2018-12-12 18:24:06
427
原创 oracle:查看被锁表相关信息
在具有dba权限用户进行执行以下语句: 1.查看被锁的表:SELECT t.session_id as sid, t2.serial#, t.locked_mode, t.oracle_username, t.os_user_name, t2.machine, t2.terminal, ...
2018-12-10 15:32:26
266
原创 hive数据倾斜
hive数据倾斜定义:key分布不均匀 导致分发到不同的reduce上 个别reduce任务特别重 导致其他reduce都完成 而这些个别的reduce迟迟不完成原因:1.key分布不均匀2.map端数据倾斜 输入文件太多且大小不一3.reduce端数据倾斜 分区器问题解决方案:1.调解hive配置参数1)设置hive.map.aggr = true map端部分聚合 相当于...
2018-12-08 10:16:30
170
原创 sql第N工资问题: leetcode 177. Nth Highest Salary
leetcode链接:https://leetcode.com/problems/nth-highest-salary/mysql解法:CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INTBEGIN RETURN ( # Write your MySQL query statement below. se...
2018-12-06 17:09:57
227
原创 bash词频统计:leetcode 192. Word Frequency
leetcode链接:https://leetcode.com/problems/word-frequency/ cat words.txt|tr -cs "[a-z][A-Z]" "\n"|sort|uniq -c|sort -k 1 -r|awk {'print $2,$1'} 步骤详解:cat:读取文本|:管道tr:将每个词按行显示sort:排序uniq:...
2018-12-06 16:25:44
145
原创 oracle11g 自动创建分区年/月/日/周
oracle11g 自动创建分区年/月/日/周–建表时创建自动分区CREAT TABLE TABLE1(TABLE_ID NUMBER(8),SUB_DATE DATE,VALUE NUMBER(8))PARTITION BY RANGE(SUB_DATE)INTERVAL(NUMTOYMINTERVAL(1,‘MONTH’))–按月分区(PARTITION P1 VALU...
2018-12-04 15:49:03
425
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人