- 博客(8)
- 收藏
- 关注
原创 GP 报错Error while loading shared libraries: libpq.so.5: cannot open shared object file
vacuumdb -d 清理GP时报错find / -name libpq.so.5找到了/usr/local/greenplum-db-6.3.0/lib/libpq.so.5lib下明明有,但还是报这个错原来是没有将gp的lib目录添加到环境变量中vi ~/.bashrc添加export LD_LIBRARY_PATH=/usr/local/greenplum-db-6.3.0/libsource ~/.bashrc再执行就没问题了...
2021-07-08 18:44:30
3322
原创 java.net.SocketException: Too many open files 解决方法
解决方法有个功能模块会频繁的使用mysql和redis来刷新数据,每过一段时间就会报这个错。原因就是那台新的服务器没有做系统的优化,linux对进程操作的数据文件有限制,服务器默认限制为1024。查看各系统各限制配置信息ulimit -a 将最大文件打开数设置高一些ulimit -n 65536注意:这个操作只对一次session有效,就是你退出服务器再登陆的话还是默认的1024。需要修改/etc/security/limits.conf,在文件末加上 * soft .
2021-06-29 11:10:02
3731
转载 Spark 读取gz文件报 java.io.EOFException: Unexpected end of input stream
先看一下需要读取的gz文件有几个是gz格式的空文件,问题就在这里。spark-submit添加参数再运行就没问题了。--conf spark.sql.files.ignoreCorruptFiles=true这个参数在spark2.1以后才有效。
2021-06-23 17:48:12
876
1
原创 Spark jdbc 读取hive报java.sql.SQLException: Method not supported
var sourceDF = spark.read.jdbc(url,dbtb,prop).toDF(fields.split(","):_*)
2021-06-11 16:55:59
2277
4
原创 SparkSQL UDF的实现方式
简述在使用spark sql处理数据的时候经常要自定义一些udf函数来实现需求,本文介绍基础的自定义UDF实现。实现
2021-06-04 21:39:18
1063
原创 spark将jdbc查询的数据封装成DataFrame
简述spark在2.2.0版本是不支持通过jdbc的方式直接访问hive数据的,需要修改部分源码现在就有这样的一个使用场景,比如一台服务器的hive版
2021-06-04 16:49:32
1103
1
原创 spark跨集群读取hive数据
简述常见的跨集群的数据迁移工具有distcp、sqoop等等本文是介绍使用spark on hive的方式读取不同集群hive中的数据并落入本地集群,
2021-06-04 15:51:08
2936
原创 spark读取hive数据的两种方式
spark读取hive数据常用的有两种方式一是通过访问hive metastore的方式,这种方式通过访问hive的metastore元数据的方式获取表结构信息和该表数据所存放的HDFS路径,这种方式的特点是效率高、数据量大、使用spark操作起来更加友好。二是通过spark jdbc的方式访问,就是通过链接hiveserver2的方式获取数据,这种方式底层大题上跟spark链接其他rdbms上一样,可以采用sql的方式先在其数据库中查询出来结果再获取其结果数据,这样大部分数据计算的压力就放在了数.
2021-06-04 14:13:06
15128
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人