
spark
魂落忘川犹在川
无端坠入红尘梦,惹却三千烦恼丝。
展开
-
spark-windows本地环境搭建
本机系统windows10Hadoop是hadoop-3.2.0,替换hadoop.dll 和winutils.exe (直接换掉bin目录)github找 https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/binscala-SDK-2.12.10 , spark2.4.3不需要本地环境pom配置即可 (注意spark3.0会出现java 9 报错,网上的方法都不可用)环境变量JAVA_HOME、HADOOP..原创 2022-01-11 16:44:11 · 1092 阅读 · 0 评论 -
scala函数和方法的调用
方法和函数的区分Scala 中使用 val 语句可以定义函数,def 语句定义方法。/** * 同包调用其他类 * def functionName ([参数列表]) : [return type] * */object testFun{ def main(args: Array[String]): Unit = { val a = 4 var n= trueOrFllse(a > 2 ) println(n) // 此处为函数体,并在方法体内调用原创 2021-02-09 16:00:53 · 371 阅读 · 0 评论 -
关于DMP项目的maven的pom.xml 文件
本人自己调试可用的代码,1.6版spark,支持jdbc,mysql,redis,hbase<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-i...原创 2018-11-21 19:26:33 · 203 阅读 · 0 评论 -
spark一些常识整理(一)
前言:最近用了一段时间spark,略有所得,借此平台,互相学习!共勉!spark是什么?有什么特点?spark是基于内存计算的大数据框架引擎,有以下4个特点1.速度快:主要通过DAG Scheduler 这个有向无环图,实现迭代式计算2.易用性:支持多种语言,如Java、scala、Python、R、SQL等3.通用性:统一实现了core 、sql 、 Streaming 、 Mli...原创 2018-11-21 21:43:39 · 249 阅读 · 0 评论 -
scala里fold用法之多线程问题
前言:偶有所得,相互学习,若有不足请留言或私信指出,不胜感激!fold : 这个方法比较特殊,因为它 第一个参数是初始值,第二个参数是计算逻辑,那么这里会有多线程的问题,也就是说,当我们初始值不为0的话,那么计算结果将不统一,每个线程都会加上初始值,这样线程越多结果越大。下面看个例子再说:scala> val arr =Array(1,2,3,4,5,6)arr: Array[I...原创 2018-11-23 16:15:56 · 364 阅读 · 0 评论 -
spark的常识整理(二)====RDD
前言:今天我接着上一篇RDD创建之后的内容继续来说,与各位博友共勉!RDD的算子RDD算子有两种1、transformation算子(懒惰性算子,不会立即执行,一般不触发job的算子都是此类算子)比如map,filter, flatmap , groupByKey ,reduceByKey, join(left right) ,cogroup, sortByKey等;其中s...原创 2018-11-22 16:56:41 · 282 阅读 · 1 评论 -
spark基本常识(三)====shuffle
上一篇讲了RDD,这篇讲RDD的shuffle一些知识与诸君分享什么是shuffle,以及为什么需要shuffle?shuffle中文翻译为洗牌,需要shuffle的原因是: 具有共同特征的数据汇聚到一个计算节点上进行计算spark中shuffle的分类主要分三种:1、hashshuffle : 默认不排序,直接进行shuffle2、sortshuffle :默认先进行排序。在...原创 2018-11-22 20:26:12 · 746 阅读 · 0 评论 -
Flink入门必学,你还不知道?
今天主要围绕Flink是什么?能干什么?为什么要用它这几点来谈谈我的一些看法整体结构:是什么:Flink 是一个框架和分布式处理引擎,是一个用于对无界和有界数据流进行有状态计算的框架Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。能干什么:任何类型的数据都是作为事件流产生的,数据可以作为有界流和无界流处理有界流:只要开始便不会结束,处理是通常要求以特...原创 2018-11-24 21:36:12 · 696 阅读 · 0 评论