- 博客(11)
- 资源 (2)
- 收藏
- 关注
原创 SparkCore知识点及部分算子
Spark中最基本的数据抽象是RDD。RDD(Resilient Distributed Dataset) 为弹性分布式数据集。RDD 的特性一组分区对于每个切片(分区),有一个计算函数与其它RDD的依赖关系分区器 K-V优先计算位置创建RDD的方式创建RDD的方式有三种集合中创建外部存储系统的数据集创建其它RDD创建集合中创建Spark主要提供了两种函数parallelize 和 makeRDD val value: RDD[Int] = sc.parallel
2021-12-10 20:34:38
1271
原创 Flink 流处理核心编程及算子操作
Flink 流处理核心编程经过一段时间的学习,我对flink流处理的编程基础、核心API、开发流程等做出了如下整理。Environment运行环境flink的运行环境包括批处理环境和流处理环境在开发过程中获取比较简单,只需要如下操作// 批处理环境ExecutionEnvironment benv = ExecutionEnvironment.getExecutionEnvironment();// 流式数据处理环境StreamExecutionEnvironment env = Stre
2021-11-13 22:31:16
1463
原创 Flink运行架构及相关命令
Flink运行架构及相关命令最近学习了Flink,整理了一些关于flink函数框架运行和相关算子的运算方法。flink阿里17年开始开源blink,里面融合的部分flink功能,比如flink SQLFlink项目的理念是:“Apache Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源的有状态的流处理框架”。 Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算 。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执
2021-11-12 21:28:42
1860
原创 idea项目父子工程
标题在idea中搭建父子工程父工程的作用主要是管理依赖因此需要在父工程的pom.xml中加入需要管理的依赖###一、父工程的pom.xml结构如下:声明所用的框架版本依赖,和字符集,以及java版本 <properties> <spark.version>3.0.0</spark.version> <scala.version>2.12.11</scala.version> <l
2021-10-30 23:20:56
320
原创 git使用命令大全
Git是一个免费的、开源的分布式版本控制工具,可以快速高效地处理从小型到大型的各种项目。Git易于学习,占地面积小,性能极快。 它具有廉价的本地库,方便的暂存区域和多个工作流分支等特性。其性能优于Subversion、CVS、Perforce和ClearCase等版本控制工具。 git在互联网公司工作中常常被用到,我个人也比较喜欢,故今天跟大家分享一下,日常工作中比较常用的命令。Git常用命令 命令名称 作用 git config --global ...
2021-10-29 19:43:46
107
原创 即席查询之Presto
即席查询Presto1 Presto简介 Presto是一个开源的、分布式SQL查询引擎、数据量支持GB到PB,主要用来处理秒级查询。虽然Presto可以解析SQL,但它不是一个标准的数据库,不是MySQL的替代品,也不能用来处理在线事务。1.1 Prosto架构 Presto CLI :Presto客户端,将执行的SQL发送给Presto CoordinatorPresto Coordinator:Presto协调器,接受客户端发来的SQL解析成任务发送给PrestoWorker去执行Pre
2021-10-27 15:34:25
792
原创 coalesce函数与nvl函数的简单示例
coalesce函数用途 将控制替换成其他值 返回第一个非空值 函数表达式解析COALESCE (expression_1, expression_2, ...,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。使用COALESCE在于大部分包含空值的表达式最终将返回空值。select coalesce(x, 1) from tableA当x 为null值的时候,将返回1,否则将返回x的真实值。
2021-09-13 21:35:03
461
原创 data grip 快捷键
Ctrl+Enter:执行选中的SQL语句Ctrl+Shift+左右箭头:调整列宽度(选中行,可以调整所有列的宽度)Ctrl+N / 双击Shift :全局搜索,点击可直接进入表Ctrl+insert: 全选中一行Ctrl+Delete:删除选中的一行Ctrl+G:进入指定的行或列,默认按照id排序进行行列跳转,控制台列按照字符跳转,比如: select t是第五列Ctrl + R : 查找替换Ctrl + Alt + L : sql格式化鼠标中间,连选。...
2021-09-10 14:30:24
2288
1
原创 Connected to the target VM, address: ‘127.0.0.1:11320‘, transport: ‘socket‘Disconnected from the ta
1.由于项目意外关闭,没有释放资源。接收java进程。2.也可能是架包冲突
2021-08-23 23:36:31
1765
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人