- 博客(11)
- 收藏
- 关注
原创 rdd利用groupbykey计算平均值
例子var ArrayRdd=sc.parallelize(Array((“b”,10),(“a”,20),(“c”,10),(“b”,30),(“b”,40))ArrayRdd.groupbykey().map(x=>{(x._1,x._2.sum/z._2.size)}).foreach(println)
2020-04-14 13:16:56
1300
原创 Hive-on-Spark
1.修改 hive/conf/hive-site.xml 新增如下配置<property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> </property> <pro...
2020-04-14 13:07:17
214
原创 Spark SQL多数据源交互
写数据package WR_sourceimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}import spark_sq...
2020-04-13 14:28:53
252
原创 Spark SQL自定义函数 UDF UDAF
直接上代码UDF 一进一出package sparksql_udfimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dataset, SparkSession}object sparkSqlUDF { def main(args: Ar...
2020-04-13 14:26:25
218
原创 创建DataFrame/DataSet的三种方法
创建DataFrame/DataSet的三种方法下面直接copy代码**List item第1种:指定列名添加Schema**package spark_sqlimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{Intege...
2020-04-13 10:23:30
1163
原创 scala函数式编程之下划线_
scala函数式编程中可使用下划线来简化函数的定义,具体的规范是这样说的:当函数参数,只在函数体中出现一次,而且函数体没有嵌套调用时,可以使用下划线来简化函数定义。下面举个错误的例子:上面的例子就是错误的,因为map方法的参数只是一个,在方法体((1),(5))中却出现了两次,这与下划线的规范定义就不同了。所以正确的写法该是这样——不使用下划线简化:我们再来看看reduce方法:...
2020-04-05 10:42:46
304
原创 hdfs常用命令实操
简单BJ,方便查询(1)-help:输出这个命令参数bin/hdfs dfs -help rm(2)-ls:显示目录信息hdfs dfs-ls /(3)-mkdir:在hdfs上创建目录hdfs dfs-mkdir -p /aaa/bbb/cc/dd(4)-moveFromLocal从本地剪切粘贴到hdfshdfs dfs-moveFromLocal...
2020-02-28 18:37:46
112
原创 hbase过滤器添加多个过滤条件
hbase过滤器添加多个过滤条件一创建一个 FilterList 对象,并添加所需的所有过滤器,并设置此 FilterList 对象作为过滤器。您可以使用构造函数或使用 addFilter()方法将过滤器添加到过滤器列表。FilterList filterList = new FilterList();filterList.addFilter(new RowFilter(…));filt...
2020-01-06 15:29:30
2085
原创 Linux JDK安装部署
第一步上传1.8jdk的压缩包,并解压文件上传路径/export/softjdk解压路径/export/install第二步在/etc/profile.d/目录下创建java.sh文件,在该文件内编辑环境变量export JAVA_HOME=/export/install/jdk1.8.0_144export PATH:PATH:PATH:PATH:JAVA_HOME/bin说明...
2019-10-18 10:21:39
97
原创 常用管道相关命令
常用管道相关命令cut释义:根据条件从命令结果中提取对应内容参数:-c : 按字符选取行中内容-d ’ ‘:指定以’ '中内容为分割符-f n1 ,n2 :分割后显示第几段的内容、sort释义:sort可针对文本文件的内容来排序-u :去重-n :按照数值大小排序-r :使次序颠倒例:[root@node01 tmp]# sort -nr 2.txt-t...
2019-10-17 17:15:45
199
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人