- 博客(32)
- 资源 (2)
- 收藏
- 关注

原创 Kettle使用规范
1、 命名规范● 作业(job):必须遵从驼峰形式。● 转换(transfsormation):都统一使用 lowerCamelCase 风格,单词间用下划线隔开,力求语义表达完整清楚,必须遵从驼峰形式。● 中间表及中间列:“mid_”作为前缀。● 临时表及临时列:“tmp_”作为前缀。● 文件目录:/{项目名}/{业务主题名}/{功能}/{FILENAME},功能根据文件的目的进行存放,例如EXF(抽取)、LD(装载)、REJ(拒绝)。● 参数及变量:参数与变量的命名全部大写,单词或者简拼间用
2020-12-16 15:49:11
841
1

原创 Kettle环境变量配置
一. 环境配置1、 安装jdk,并配置java环境下载地址 https://pan.baidu.com/s/1ayF9sEZ_tcRK71xCOQNQqg 提取码:lq8s a).打开我的电脑–属性–高级–环境变量b).新建系统变量JAVA_HOME和CLASSPATH变量名:JAVA_HOME变量值:C:\Program Files\Java\jdk1.8.0_211[具体路径以自己本机安装目录为准]变量名:CLASSPATH变量值.;%JAVA_HOME%\lib\dt.j
2020-12-16 09:59:04
6684
原创 如何写好一个hql
简介作为一个数据开发工程师,hive sql是我们必备的技能,好的hql语句让我们事半功倍。列裁剪所谓列裁剪就是在查询时只读取需要的列。以我们的日历记录表为例:#错误示范select *from user_info where age = 18#正确示范select uid ,uname ,sex from user_info where age = 18当列很多时,如果select * ,全列扫描效率很低。建议:不要图省事select *,应该进行列剪裁。分区裁
2021-10-21 14:09:45
1074
原创 hive 基础知识及查询三
第 6 章 查询官方链接https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select6.1 基本查询(Select…From)6.1.1 全表和特定列查询1)全表查询hive (default)> select * from emp;2)选择特定列查询hive (default)> select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)SQL
2021-10-02 10:27:00
472
原创 hive 基础知识及使用一
第 1 章 Hive 基本概念1.1 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive :基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序。1)Hive 处理的数据存储在 HDFS2)Hive 分析数据底层的默认实现是 MapReduce3)执行程序运行在 Yarn 上1.2 Hive 的优缺点1.2.1 优点1)操作接口采用类
2021-10-02 09:11:23
455
原创 hive 基础知识及语法二
第 3 章 Hive 数据类型3.1 基本数据类型Hive 数据类型Java 数据类型长度例子TINYINTbyte1byte 有符号整数20SMALINTshort2byte 有符号整数20INTint4byte 有符号整数20BIGINTlong8byte 有符号整数20BOOLEANboolean布尔类型,true 或者 falseTRUE FALSEFLOATfloat单精度浮点数3.14159
2021-09-22 11:48:55
622
原创 impala 基础知识及使用
第1章 Impala的基本概念1.1 什么是ImpalaCloudera公司推出,提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。1.2 Impala的优缺点1.2.1 优点1)基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销。2)无需转换为Mapreduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快。3)使用了
2021-09-19 08:24:56
3729
原创 大数据面试题2
1.HDFS写文件流程1.客户端向NameNode发送写文件请求。2.NameNode检查是否已存在文件,检查客户端是否有写权限。若通过检查,在名称空间中创建一个新的文件。3.文件系统返回一个输出流对象(DFSOutputStream),客户端用于写数据。4.客户端将NameNode返回的分配的可写的DataNode列表和Data数据一同发送给最近的第一个DataNode节点,第一个节点将数据块发送给第二个节点,第二个节点将数据块发送给第三个节点。5.三个数据节点存储数据成功后会向客户端发送写入
2021-03-01 21:52:20
7786
7
原创 大数据面试题1
1、hadoop:1)hadoop是大数据分析的完整生态系统,从数据采集,存储,分析,转运,再到页面展示,构成了整个流程2)采集可以用flume,3)存储用hbase,hdfs,mangodb就相当于hbase,4)分析用Mapreduce自己写算法,5)还有hive做数据仓库,6)pig做数据流处理,7)转储方面有sqoop,可以将hdfs中的数据转换存储到mysql,oracle等传统数据库,这就构成了一整套大数据分析的整个流程2、Hadoop 集群可以运行的 3 个模式分别是什么,
2021-03-01 21:24:17
224
原创 大数据面试题1
Hadoop生态一、HDFSHDFS的读写流程?HDFS中,NameNode与DataNode的作用?SecondaryNameNode的作用以及与NameNode的区别和联系?什么是集群安全模式?什么情况下会进入安全模式?以及安全模式的解决方法?为什么HDFS不适合小文件?HDFS支持的存储格式和压缩算法都有哪些?说说HDFS的可靠性策略HDFS的优缺点都有哪些?二、MapReduceMapReduce的执行流程(Yarn模式)?MapReduce的关键类有哪些?maper方
2021-03-01 21:20:09
195
原创 mysql 主备模式搭建过程
MySQL主备搭建1.主库配置以下所有操作均在主服务器上执行1)授权给从数据库服务器mysql>GRANT REPLICATION SLAVE ON *.* to '用户名'@'从数据库IP地址' identified by '密码';mysql>FLUSH PRIVILEGES;2)修改主库配置文件开启binlog,并设置server-id,每次修改配置文件后都要重启mysql服务才会生效vim /etc/my.cnf#同步的日志路径及文件名,一定注意这个目录要是mysql
2021-01-27 10:45:41
804
3
原创 shell脚本字符串截取的8种方法
#假设有变量 var=http://www.aaa.com/123.htm.1、#号截取,删除左边字符,保留右边字符echo ${var#*//}其中 var 是变量名,# 号是运算符,*// 表示从左边开始删除第一个 // 号及左边的所有字符即删除 http://结果是 :www.aaa.com/123.htm2、 ##号截取,删除左边字符,保留右边字符echo ${var##*/}##*/ 表示从左边开始删除最后(最右边)一个 / 号及左边的所有字符即删除 http://www.a
2021-01-20 14:32:53
311
原创 第一篇:数据仓库概述
阅读目录前言数据库的"分家"操作型数据库 VS 分析型数据库数据仓库(data warehouse)定义聪明的读者应该已经意识到这个问题:既然分析型数据库中的操作都是查询,因此也就不需要严格满足完整性/参照性约束以及范式设计要求,而这些却正是关系数据库精华所在。这样的情况下再将它归为数据库会很容易引起大家混淆,毕竟在绝大多数人心里数据库是可以关系型数据库画上等号的。数据仓库组件数据集市(data mart)数据仓库开发流程小结前言阅读本文前,请先回答下面两个问题:1.数据库和数据仓库有什么区别?2.
2021-01-17 10:35:17
242
原创 第二篇:数据仓库与数据集市建模
阅读目录前言维度建模的基本概念维度建模的三种模式实例:零售公司销售主题的维度建模更多可能的事实属性经典星座模型缓慢变化维度问题数据仓库建模体系之规范化数据仓库数据仓库建模体系之维度建模数据仓库数据仓库建模体系之独立数据集市三种数据仓库建模体系对比小结前言数据仓库建模包含了几种数据建模技术,除了之前在数据库系列中介绍过的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度
2021-01-17 09:46:05
633
原创 hive数据倾斜解决方法
Hive的过程中经常会碰到数据倾斜问题,数据倾斜基本都发生在group、join等需要数据shuffle的操作中,这些过程需要按照key值进行数据汇集处理,如果key值过于集中,在汇集过程中大部分数据汇集到一台机器上,这就会导致数据倾斜。具体表现为:作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没有跑完。常见产生数据倾斜的原因:空值产生的数据倾斜不同数据类型关联产生的数据倾斜关联的key非空,但是某个key值大量重复distinct、count(distinct)1、
2021-01-13 20:24:42
276
原创 Linux安装MySQL标准教程
1、前置准备1)查看rpm包 rpm -qa|grep mysql 若有可用rpm -e卸载2)查找mysql残留包,有则删除,没有则忽略 find / -name mysql3)安装相关依赖 yum -y install make gcc-c++ cmake bison-devel ncurses-devel numactl libaio4)创建用户和用户组groupadd mysqluseradd -s /sbin/nologin -g mysql -M mysql2、
2021-01-12 16:47:25
107
原创 linux安装、卸载jdk及配置环境变量
一、前言在linux系统部署程序时,一般都需要安装JDK,安装JDK比较简单,稍微麻烦一点的是配置环境变量,而linux是可以根据不同的用户配置不同的jdk,也可以配置所有用户统一JDK二、查看Jdk的安装路径[root@centos76 ~]# whereis java(用来查看一个命令或者文件所在的路径)[root@centos76 ~]# which java (用来查看当前要执行的命令所在的路径)[root@centos76 ~]# echo $JAVA_HOME[root@cento
2021-01-12 14:09:47
499
1
原创 虚拟机ping不通百度的解决办法
注意本文提出的问题的前提条件是:主机和虚拟机互相能ping通,主机能ping通外网,虚拟机不能ping通外网。解决办法出现这个问题,很可能是你的网关设置错误了,首先执行cat /etc/sysconfig/network-scripts/ifcfg-eth0命令查看网络配置信息。我的是:DEVICE=eth0HWADDR=00:0C:29:B1:2B:81TYPE=EthernetUUID=e576efc7-0d53-4c30-b32c-494c9880ac28ONBOOT=yes
2021-01-11 19:44:42
15628
2
原创 Mysql数据库常见面试题
阅读指南1.事务四大特性2.数据库隔离级别一级目录一级目录一级目录一级目录一级目录1.事务四大特性 1、原子性(Atomicity):事务开始后所有操作,要么全部做完,要么全部不做,不可能停滞在中间环节。事务执行过程中出错,会回滚到事务开始前的状态,所有的操作就像没有发生一样。也就是说事务是一个不可分割的整体,就像化学中学过的原子,是物质构成的基本单位。 2、一致性(Consistency):事务开始前和结束后,数据库的完整性约束没有被破坏 。比如A向B转账,不可能A扣了钱,B却没收到。
2021-01-10 10:29:02
872
原创 sftp常用命令介绍
sftp是Secure FileTransferProtocol的缩写,安全文件传送协议。可以为传输文件提供一种安全的加密方法。sftp与 ftp有着几乎一样的语法和功能。SFTP为 SSH的一部分,是一种传输档案至Blogger伺服器的安全方式。其实在SSH软件包中,已经包含了一个叫作SFTP(Secure File TransferProtocol)的安全文件传输子系统,SFTP本身没有单独的守护进程,它必须使用sshd守护进程(端口号默认是22)来完成相应的连接操作,所以从某种意义上来说,SFTP并不
2021-01-10 09:08:28
1695
原创 MySQL的行转列与列转行
行转列与列转行的概念这里需要重申一下行转列和列转行的区别。有很多的贴子在介绍的时候没有严格的区分,命名介绍的是列转行该如何操作,但是帖子的标题确写的是行转列。自始至终都没有提过列转行的事情。所以,我觉的这里应该有必要做一次区别和认识。什么是行转列所谓的行转列是指把数据表中具有相同key值的多行value数据,转换为使用一个key值的多列数据,使每一行数据中,一个key对应多个value。行转列完成后,在视觉上的效果就是:表中的总行数减少了,但是列数增加了。如下所示的转换过程就是一个简单的行转列的过
2020-12-10 14:30:49
1500
1
原创 累计求和
数据库:MySQL建表语句// An highlighted block CREATE TABLE test.zf_users ( "matnr" varchar(32), "zweek" varchar(32), "rtype" varchar(32), "labst" int(10) ) ENGINE=InnoDB DEFAULT CHARSET=utf8初始化数据// An highlighted blockinsert into te
2020-12-02 17:00:16
298
原创 留存率分析
背景APP分析中经常用到AARRR模型(海盗模型)用来分析APP的现状,其中一个重要节点就是提高留存(Acquisition),而留存率这个指标在这个阶段可以说是核心指标也不为过。留存率计算方法假如今天新增了100名用户,第二天登陆了50名,则次日留存率为50/100=50%,第三天登录了30名,则第二日留存率为30/100=30%,以此类推。SQL的计算思路...
2020-12-02 14:14:46
1198
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人