坏圈-优快云博客

原创 GP 报错Error while loading shared libraries: libpq.so.5: cannot open shared object file

vacuumdb -d 清理GP时报错find / -name libpq.so.5找到了/usr/local/greenplum-db-6.3.0/lib/libpq.so.5lib下明明有，但还是报这个错原来是没有将gp的lib目录添加到环境变量中vi ~/.bashrc添加export LD_LIBRARY_PATH=/usr/local/greenplum-db-6.3.0/libsource ~/.bashrc再执行就没问题了...

2021-07-08 18:44:30 3401

原创 java.net.SocketException: Too many open files 解决方法

解决方法有个功能模块会频繁的使用mysql和redis来刷新数据，每过一段时间就会报这个错。原因就是那台新的服务器没有做系统的优化，linux对进程操作的数据文件有限制，服务器默认限制为1024。查看各系统各限制配置信息ulimit -a 将最大文件打开数设置高一些ulimit -n 65536注意：这个操作只对一次session有效，就是你退出服务器再登陆的话还是默认的1024。需要修改/etc/security/limits.conf，在文件末加上 * soft .

2021-06-29 11:10:02 3809

转载 Spark 读取gz文件报 java.io.EOFException: Unexpected end of input stream

先看一下需要读取的gz文件有几个是gz格式的空文件，问题就在这里。spark-submit添加参数再运行就没问题了。--conf spark.sql.files.ignoreCorruptFiles=true这个参数在spark2.1以后才有效。

2021-06-23 17:48:12 942 1

原创 Spark jdbc 读取hive报java.sql.SQLException: Method not supported

var sourceDF = spark.read.jdbc(url,dbtb,prop).toDF(fields.split(","):_*)

2021-06-11 16:55:59 2338 4

原创 SparkSQL UDF的实现方式

简述在使用spark sql处理数据的时候经常要自定义一些udf函数来实现需求，本文介绍基础的自定义UDF实现。实现

2021-06-04 21:39:18 1114

原创 spark将jdbc查询的数据封装成DataFrame

简述spark在2.2.0版本是不支持通过jdbc的方式直接访问hive数据的，需要修改部分源码现在就有这样的一个使用场景，比如一台服务器的hive版

2021-06-04 16:49:32 1147 1

原创 spark跨集群读取hive数据

简述常见的跨集群的数据迁移工具有distcp、sqoop等等本文是介绍使用spark on hive的方式读取不同集群hive中的数据并落入本地集群，

2021-06-04 15:51:08 3055

原创 spark读取hive数据的两种方式

spark读取hive数据常用的有两种方式一是通过访问hive metastore的方式，这种方式通过访问hive的metastore元数据的方式获取表结构信息和该表数据所存放的HDFS路径，这种方式的特点是效率高、数据量大、使用spark操作起来更加友好。二是通过spark jdbc的方式访问，就是通过链接hiveserver2的方式获取数据,这种方式底层大题上跟spark链接其他rdbms上一样，可以采用sql的方式先在其数据库中查询出来结果再获取其结果数据，这样大部分数据计算的压力就放在了数.

2021-06-04 14:13:06 15386 5

qq_42213403的博客