
spark
文章平均质量分 60
蹩脚法师
这个作者很懒,什么都没留下…
展开
-
Spark读取HDFS加密区数据乱码问题解决
因为项目需求,需要启用hdfs加密区,为了验证对现有程序的影响,我在自己的集群上配置了加密区,并测试spark和java程序读取数据。spark程序代码如下 System.setProperty("HADOOP_USER_NAME", "user1") val spark = SparkSession .builder() .master("local") .getOrCreate() // val data = spark.read.原创 2021-07-16 15:04:52 · 590 阅读 · 0 评论 -
spark读取elasticsearch中数组类型的字段
之前做的一个项目需要用sparksql读取elasticsearch的数据,当读取的类型中包含数组时报错.读取方式大概是val options = Map("pushdown" -> "true", "strict" -> "false", "es.nodes" -> "127.0.0.1", "es.port原创 2018-08-04 10:04:16 · 3173 阅读 · 0 评论 -
spark运行时加载hive,hdfs配置文件
以前我用spark连接hive都是把hive的配置文件放在spark的conf目录,后来有个项目在运行时才能确定要连接哪个hive源,我就找了个能在运行时加载配置文件的方法,代码如下:import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.Pathimport org.apache.spark.s...原创 2018-08-13 20:22:34 · 3139 阅读 · 0 评论 -
spark读取hdfs的权限异常
hdfs本身是没有身份认证的,但是为了防止用户误操作,它也有类似linux的文件权限限制我在IDE里开发程序连接hdfs因为本机名和服务器的文件所属用户名不同导致没有读取权限,错误异常堆栈如下: 这样有两种解决方法,一是更改文件权限或所属用户,二是更改本地用户名。我用的是第二种:可以在程序中定义sparksession之前。加入这么一段代码System.setProper...原创 2018-08-20 11:28:06 · 3611 阅读 · 0 评论 -
spark如何写自定义聚合函数UDAF
spark自定义聚合函数需要继承一个抽象类UserDefinedAggregateFunction,并重写以下属性和方法1. inputSchema:函数的参数列表,不过需要写成StructType的格式,例如:override def inputSchema:StructType = StructType(Array(StructField("age",IntegerType)))...原创 2018-09-09 16:22:52 · 2977 阅读 · 0 评论