spark
jane3von
~~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scala本地连接带有kerberos的Hive
Scala本地连接带有kerberos的Hive,网上找了很多但是自己实际用起来还是连不上,所有贴上可用的版本。 代码中的confPath路径就是实际本地路径,例如项目resources目录下的Kerberos目录: "C:\\UseXXX\\Project\\MY_Projects\\test3\\src\\main\\resources\\Kerberos\\" def initSpark() : SparkConf = { val isWin = System.getProperty原创 2021-12-22 11:17:23 · 1168 阅读 · 0 评论 -
Spark 自定义输出文件格式
MyTextOutputFormat.java import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.com.原创 2021-07-22 18:48:53 · 1337 阅读 · 0 评论 -
动态为数值型列设置默认值0
public Dataset<Row> setDefaultOneZero(Dataset<Row> ds,String formName){ StructType structType = ds.schema(); int len = structType.fields().length; String keyStr = global.getMap().get("default.parameter").replaceAll("\\|.原创 2021-08-06 09:43:58 · 766 阅读 · 0 评论 -
自定义UDAF函数
Java 实现自定义UDAF函数,代码如下: package com.**; import org.apache.spark.sql.Row; import org.apache.spark.sql.expressions.MutableAggregationBuffer; import org.apache.spark.sql.expressions.UserDefinedAggregateFunction; import org.apache.spark.sql.types.DataType; i原创 2021-06-29 12:31:44 · 370 阅读 · 0 评论 -
spark对spark.driver.maxResultSize报错的解决方案
最近有个需求需要union 上千甚至更多的dataset数据,然后cache(),然后count(),在执行count()这个action操作的时候,spark程序报错,如下: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 16092 tasks (16.0 GB) is bigger than spark.driver.maxResultSize原创 2020-12-07 21:26:34 · 6426 阅读 · 0 评论 -
Intellij Idea 新建mave依赖的java spark 项目
1. Hadoop环境配置 下载hadoop-2.9.2.tar.gz包到本地Windows目录,下载地址: http://archive.apache.org/dist/hadoop/core/hadoop-2.9.2/ 下载解压后需要在其bin目录下添加hadoop.dll和winutils.exe,对应版本下载地址: https://github.com/steveloughran/winutils/tree/master/hadoop-3.0.0/bin 2. 新建maven依赖的j.原创 2020-09-28 11:12:04 · 285 阅读 · 0 评论
分享