
ETL
文章平均质量分 57
大宇进阶之路
这个作者很懒,什么都没留下…
展开
-
XXL-job的搭建和使用-执行shell脚本
场景:在腾讯云服务器上安装xxl-job应用和mysql数据库。安装mysql,安装教程见。原创 2022-10-07 16:23:52 · 5595 阅读 · 0 评论 -
JSON路径表达式
json需要匹配路径搜索元素,记录一下:JSON Path 描述 $ 表示根元素 @ 表示当前节点 . 表示子节点 .. 选择所有符合条件的节点 * 所有节点 [] 迭代器标识,如数组下标 [,] 支持迭代器中多选 [start:end:step] 数组切片 ?() 支持过滤 () 支持表达式计算 例子:{ "store": { "book": [{ "category"...转载 2022-05-18 12:02:46 · 2749 阅读 · 1 评论 -
ETL-kettle/pentaho的二次开发
PDI的源码地址:GitHub - pentaho/pentaho-kettle: Pentaho Data Integration ( ETL ) a.k.a Kettlepentahoserver的源码地址:GitHub - pentaho/pentaho-platform: Pentaho BA Server Core应用下载地址:Pentaho from Hitachi Vantara - Browse /Pentaho-9.2 at SourceForge.net参考文原创 2022-04-02 10:33:51 · 2547 阅读 · 0 评论 -
如何远程windows服务器及传文件
远程连接方法1:使用系统自带的远程应用Win+R弹出窗口,输入mstsc,打开远程桌面应用输入IP地址和用户名,连接后需要输入用户密码即可登陆远程windows桌面方法二:MobaXterm 建立RDP连接MobaXterm建立RDP连接,输入用户密码后即可登陆。远程windows传文件使用windows自带的远程连接时,选择:就可以共享对应的盘了。...原创 2021-10-15 10:40:21 · 3538 阅读 · 0 评论 -
Kettle/Pentaho的安装与配置
kettle下载和安装全教程原创 2021-03-30 16:26:50 · 14349 阅读 · 7 评论 -
Javascript进行时间转换
在ETL处理过程中经常会遇到时间类型的转换,可以通过js脚本方便的进行,如下:时间格式变为时间戳若tm1字段是时间类型,如果是字符串类型会报错。var t1 = tm1.getTime();var.getTime()可将时间类型转换为timestamp格式,如下所示。如果tm1是字符串,需加new Date 将字符串类型转换为时间类型,如下。var t1 = new Date("2020/10/10 09:11:20").getTime()获取当前时间:var date = dat.原创 2020-11-13 16:15:30 · 1248 阅读 · 0 评论 -
Impala的学习积累
1.impala的连接问题:当设置ldap权限后,impala登陆需要用户名/密码的验证impala-shell Not Connected的问题2.取消impala任务:在cm管理界面取消 查看impala具体的节点,比如http://test01:25000/queries,取消查询任务因为发现在CDH中的impala查询页面取消impala的任务是没有效果的,所以登陆impala节点的那台服务器上去直接取消任务。3.Hive和impala的concat函数区别impala使用过原创 2020-08-27 14:41:33 · 860 阅读 · 0 评论 -
大数据&ETL&kettle学习积累
以下为本博客及其他资料的分享:大数据:Kudu的学习SQL的学习:MySQL的学习,由入门到精通SQL学习分享1之时间命令unix_timestamp、FROM_UNIXTIMESQL学习分享2之分组排序函数ROW_NUMBER() OVER()...原创 2020-04-23 16:20:57 · 1639 阅读 · 0 评论 -
OLTP与OLAP的区别和联系
参考文章:https://www.cnblogs.com/hhandbibi/p/7118740.htmlOLTP,即联机事务处理,它通常会涉及到那些存储和管理与系统/公司日常运营有关数据的数据库。在过去,OLTP通常与正在运行的关系数据库相关联,其主要关注点是从给定环境正在发生的事情中收集数据。简而言之:OLTP用于存储和管理日常运营的数据。OLAP,即联机分析处理,通常涉及到那些存储和管理与分析和决策相关的数据的数据库。OLAP与商业智能(BI)紧密相关,BI是一种专门的软件开发模式,用转载 2020-05-12 14:11:07 · 2169 阅读 · 0 评论 -
Hive创建表指定分隔符、分区表的插入
hive是怎样保存元数据&内部表和外部表的区别:https://www.jianshu.com/p/2ea08633b790Hive的分区表https://www.jianshu.com/p/69efe36d068b原创 2020-05-07 17:43:27 · 4375 阅读 · 0 评论 -
SQL学习分享2之分组排序函数ROW_NUMBER() OVER()
参考文章:https://blog.youkuaiyun.com/qq_25221835/article/details/82762416语法格式:row_number() over(partition by 分组列 order by排序列 desc)row_number() over()分组排序功能:在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚...转载 2020-04-23 16:16:23 · 807 阅读 · 0 评论 -
SQL学习分享1之时间命令unix_timestamp、FROM_UNIXTIME
本次博客分享的是在ETL过程中,处理hive和SQL中用到的SQL时间命令。时间命令unix_timestampSELECT unix_timestamp(); --将当前时间转换为时间戳date满足yyyy-MM-dd HH:mm:ss形式或者yyyy-MM-dd形式可以直接unix_timestamp(string date) 得到参数对应的时间戳Date...原创 2020-04-23 13:42:32 · 2716 阅读 · 0 评论 -
通过Oracle系统表获取表主键
场景:需要将Oracle的数据抽取至kudu中,首先需要在kudu中对应建立与Oracle数据库对应的表。使用kettle工具设计任务。在表输入组件中,连接Oracle数据库后,SQL语句结尾处不加“;”,否则执行语句时报错。 查询Oracle主键的SQL语句SELECT col.column_namefromall_constraints con,all_cons_colum...原创 2020-04-20 15:30:12 · 2676 阅读 · 0 评论 -
(转载)数据管道(data pipeline)与ETL管道(ETL pipeline)的区别
数据管道与ETL管道,这两个词的意义是相近的,差别比较微小,有时候很多人会混用。ETL管道,描述的是一组进程,实现将数据从一个系统抽取出来,经过转换,最终再加载到其他数据库或数据仓库中。数据管道,是一个比ETL管道更加通用的术语,只要是实现系统之间的数据迁移的处理过程,都可以使用这个词来代表。迁移过程中可能存在着数据转换。ETL管道,一般描述的是在批处理中使用的管道,例如:某个管道运行...转载 2020-04-10 11:59:15 · 738 阅读 · 1 评论 -
KUDU的学习
以下记录自己使用KUDU中的使用问题及解决方法:1. Kudu主键Kudu存在主键,创建表时两种方式标明主键:方式一CREATE TABLE testa(id int,name string,salary double,PRIMARY key (id ))stored as kudu方式二CREATE TABLE testb(id int PRIMARY...原创 2020-04-09 15:48:14 · 1369 阅读 · 0 评论 -
KuduMaster 多节点配置
为了实现高可用性并避免单点故障,应使用多个master服务器创建Kudu集群。以下将介绍现有单master节点集群如何迁移到3个master主节点配置。请注意,主节点数量必须为奇数,操作参考一下官方文档:https://kudu.apache.org/docs/administration.html#_starting_and_stopping_kudu_processes 以下示例中:...原创 2020-04-03 15:40:08 · 2219 阅读 · 0 评论