- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 crontab表达式
前言crontab命令常见于Unix和类Unix的操作系统之中,用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。Linux中任务调度主要有两种分类,一种是系统周期调度任务,比如清除缓存、日志清理等;另一种是用户自定义调度任务,比如定期发送邮件等。使用格式# * * * * * * * 代表含义 允许值 允许特殊...
2019-12-12 11:40:21
744
原创 Spark中的Join操作
本文主要对Spark中的各种Join操作做一个总结。引言SparkSQL所有操作中使用最频繁的为join操作,好的设计模型能够将数据分散在不同的表中,减少冗余,建立不同表之间的关系的操作便是join。spark中join源码@ignore_unicode_prefix @since(1.3) def join(self, other, on=None, how=None):...
2019-11-29 19:02:52
1370
原创 Spark窗口函数总结
窗口函数SparkSQL有三种类型的窗口函数:Ranking functions、Analytic functions以及Aggregate funcitons。Ranking Functionsrow_number @since (1.6) rowNumber:Deprecated in 1.6, use row_number instead. returns a sequentia...
2019-11-28 17:06:35
957
原创 Presto入门介绍
Presto入门介绍背景概念Presto基本概念数据模型Presto架构模型查询模型工作原理Presto架构图Presto查询执行过程优势缺点参考背景Hive等数据处理工具使用MapReduce作为底层处理框架,处理简单的数据,响应时间还可以接受,但随着数据量的增加,使用Hive哪怕进行简单的数据处理都在分钟级甚至小时级别,这显然不能满足现在实时交互的需求。Presto是FaceBook于20...
2019-11-12 19:08:14
1080
原创 Hive之Explain字段
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2019-11-08 10:09:57
315
AWK Tutorial Guide
2018-09-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人