
spark
文章平均质量分 60
蹩脚法师
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark读取HDFS加密区数据乱码问题解决
因为项目需求,需要启用hdfs加密区,为了验证对现有程序的影响,我在自己的集群上配置了加密区,并测试spark和java程序读取数据。 spark程序代码如下 System.setProperty("HADOOP_USER_NAME", "user1") val spark = SparkSession .builder() .master("local") .getOrCreate() // val data = spark.read.原创 2021-07-16 15:04:52 · 620 阅读 · 0 评论 -
spark读取elasticsearch中数组类型的字段
之前做的一个项目需要用sparksql读取elasticsearch的数据,当读取的类型中包含数组时报错. 读取方式大概是 val options = Map("pushdown" -> "true", "strict" -> "false", "es.nodes" -> "127.0.0.1", "es.port原创 2018-08-04 10:04:16 · 3199 阅读 · 0 评论 -
spark运行时加载hive,hdfs配置文件
以前我用spark连接hive都是把hive的配置文件放在spark的conf目录,后来有个项目在运行时才能确定要连接哪个hive源,我就找了个能在运行时加载配置文件的方法,代码如下: import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.Path import org.apache.spark.s...原创 2018-08-13 20:22:34 · 3172 阅读 · 0 评论 -
spark读取hdfs的权限异常
hdfs本身是没有身份认证的,但是为了防止用户误操作,它也有类似linux的文件权限限制 我在IDE里开发程序连接hdfs因为本机名和服务器的文件所属用户名不同导致没有读取权限,错误异常堆栈如下: 这样有两种解决方法,一是更改文件权限或所属用户,二是更改本地用户名。 我用的是第二种: 可以在程序中定义sparksession之前。加入这么一段代码 System.setProper...原创 2018-08-20 11:28:06 · 3648 阅读 · 0 评论 -
spark如何写自定义聚合函数UDAF
spark自定义聚合函数需要继承一个抽象类UserDefinedAggregateFunction,并重写以下属性和方法 1. inputSchema:函数的参数列表,不过需要写成StructType的格式,例如: override def inputSchema:StructType = StructType(Array(StructField("age",IntegerType))) ...原创 2018-09-09 16:22:52 · 3002 阅读 · 0 评论