- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 Spark读取HDFS加密区数据乱码问题解决
因为项目需求,需要启用hdfs加密区,为了验证对现有程序的影响,我在自己的集群上配置了加密区,并测试spark和java程序读取数据。 spark程序代码如下 System.setProperty("HADOOP_USER_NAME", "user1") val spark = SparkSession .builder() .master("local") .getOrCreate() // val data = spark.read.
2021-07-16 15:04:52
589
原创 HUE+LDAP+HIVE,报错:PLAIN auth failed: Error validating LDAP user
我已经为hue集成了ldap,本次为hive集成ldap认证之后,登录hue后,在hive editor中执行sql语句报如下错误: Bad status: 3 (PLAIN auth failed: Error validating LDAP user) (code THRIFTTRANSPORT): TTransportException('Bad status: 3 (PLAIN ...
2019-09-04 17:12:36
7455
原创 mariadb在有无索引下插入和查询速度对比
众所周知,mariadb是mysql的一个分支,使用起来和mysql差别不大。我最近看了看《高性能MySQL》,虽然明白了一些索引的原理,但对于索引实际能提升的效率还是缺乏直观的认识,所以想要测试一下索引对插入和查询的时间的影响。之所以使用mariadb而不是mysql,一是因为两者相差不大,二是yum库中没有mysql。 测试环境: 虚拟机系统:centos,cpu:1核,内存:2g,mar...
2018-09-14 14:47:56
1096
原创 spark如何写自定义聚合函数UDAF
spark自定义聚合函数需要继承一个抽象类UserDefinedAggregateFunction,并重写以下属性和方法 1. inputSchema:函数的参数列表,不过需要写成StructType的格式,例如: override def inputSchema:StructType = StructType(Array(StructField("age",IntegerType))) ...
2018-09-09 16:22:52
2977
原创 quartz在用mysql做持久化有时候会错过调度的问题
之前做的一个用quartz调度周期任务的系统,我在测试的时候偶然发现quartz有时会错过第一次触发(当时我设置的是每分钟执行一次,开始时间在添加进quartz的时间之前),我找了很多博客论坛,也在百度和Stack Overflow搜索,但都没有找到有这样问题。只能一点点调试,找问题出在哪里。最后终于窥见了一些端倪,总结如下: 一,出现的问题的详细描述 1.首先我设置的调度策略是with...
2018-08-25 20:49:24
625
原创 spark读取hdfs的权限异常
hdfs本身是没有身份认证的,但是为了防止用户误操作,它也有类似linux的文件权限限制 我在IDE里开发程序连接hdfs因为本机名和服务器的文件所属用户名不同导致没有读取权限,错误异常堆栈如下: 这样有两种解决方法,一是更改文件权限或所属用户,二是更改本地用户名。 我用的是第二种: 可以在程序中定义sparksession之前。加入这么一段代码 System.setProper...
2018-08-20 11:28:06
3611
原创 spark运行时加载hive,hdfs配置文件
以前我用spark连接hive都是把hive的配置文件放在spark的conf目录,后来有个项目在运行时才能确定要连接哪个hive源,我就找了个能在运行时加载配置文件的方法,代码如下: import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.Path import org.apache.spark.s...
2018-08-13 20:22:34
3138
原创 spark读取elasticsearch中数组类型的字段
之前做的一个项目需要用sparksql读取elasticsearch的数据,当读取的类型中包含数组时报错. 读取方式大概是 val options = Map("pushdown" -> "true", "strict" -> "false", "es.nodes" -> "127.0.0.1", "es.port
2018-08-04 10:04:16
3173
原创 提交spark程序到yarn出现ERROR SparkContext: Error initializing SparkContext.
命令行输出的java异常栈ERROR SparkContext: Error initializing SparkContext.org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master. ...
2018-02-26 14:15:26
18201
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人