
Hadoop问题解决
文章平均质量分 59
gegeyanxin
这个作者很懒,什么都没留下…
展开
-
Multiple sources found for parquet 错误解决
解决:org.apache.spark.sql.AnalysisException: Multiple sources found for parquet (org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2, org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat)原创 2022-09-20 20:39:01 · 1767 阅读 · 0 评论 -
org.apache.flink.table.api.ValidationException: Could not find any factory for identifier ‘doris‘ th
org.apache.flink.table.api.ValidationException: Could not find any factory for identifier 'doris'打包时需要将多个构件中的class文件或资源文件聚合。资源的聚合需要shade插件提供了丰富的Transformer工具类。转载 2022-08-01 20:16:51 · 3325 阅读 · 0 评论 -
spark参数调优各参数的含义
最近任务在大量shuffle时,发现了shuffleread时候特别慢,查了相关的参数做一下记录。spark.reducer.maxSizeInFlight默认值:48m 参数说明:该参数用于设置shuffle read task的buffer缓冲大小,而这个buffer缓冲决定了每次能够拉取多少数据。 调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如96m),从而减少拉取数据的次数,也就可以减少网络传输的次数,进而提升性能。在实践中发现,合理调节该参数,性能会有1原创 2022-03-18 11:45:46 · 974 阅读 · 0 评论 -
hadoop不同集群之间文件拷贝
hadoop不同集群之间文件拷贝 DistCp用法原创 2021-11-19 15:40:26 · 2152 阅读 · 0 评论 -
发现Spark集群三个节点都是平等的,可以在任意一个节点开启master。
然后挂掉Active节点后,其他的节点可以正常激活。原创 2019-12-17 21:40:17 · 298 阅读 · 0 评论 -
VMware虚拟机无eth0网卡问题
https://www.cnblogs.com/ailsa-mei/p/8734339.html这篇博客写的非常好。另外我双的博客记录的也很全面:https://www.cnblogs.com/zhaozishuang/p/9314181.html 。1.输入ifconfig查看ip,发现里面有一个eth1的连接但是到/etc/sysconfig/network-scripts里,...原创 2019-12-16 20:36:06 · 2590 阅读 · 0 评论 -
hadoop高可用集群重新初始化namenode后无法启动datanode的问题解决
虚拟机移动了个位置,从本地D盘移动到了移动硬盘E盘上后,出现了了一些问题。上篇文章是网络问题。这篇文章是hadoop集群的问题。问题尝试解决过程:1.昨晚启动时发现namenode有一个节点始终启动不了。查了网上的资料,删除了/home/hadoop/data/hadoopdata/journaldata/bd1804/current里的VERSION 文件,重新格式化后,nameno...原创 2019-12-17 20:52:51 · 1934 阅读 · 0 评论 -
【bug解决】User did not initialize spark context 的解决
本来调试的好好的spark代码,加了一个参数读入的问题后,瞬间报这个错误。问题所在,在定义spark context变量之前写了太多代码。解决方法:将代码移至spark context定义之后。...原创 2019-02-20 21:27:47 · 7794 阅读 · 0 评论 -
异常关机后,Hadoop集群开机后不能启动
Windows下安装的vmware,上面跑了三个hadoop虚拟机.某天电脑发热过大死机了,后来强制关机,再开机后,虚拟机前面有三个红叉,不能启动,这个时候千万不要点移除虚拟机.去Windows下安装虚拟机的地方,删除产生的临时文件和日志文件,后打开虚拟机即可,问题解决.删除的文件如下. ....原创 2018-08-16 09:37:38 · 1873 阅读 · 0 评论 -
Flume监听数据时一切设置正常,却监听不到数据
原因是之前错误配置的时候执行生成的Application占用了资源.将不用的Application全部kill掉后,重新执行.一切正常!类似的其他情况也可以先查看进程.把不用的进程关掉....原创 2018-08-14 17:31:19 · 3051 阅读 · 4 评论 -
Hadoop高可用集群出现两个standby,如何解决
如果出现两个standby:1.先在一个节点上先关闭zkfc: 执行 hadoop-daemon.sh stop zkfc2.查看状态,另一个节点会变为active;3.重新开启zkfc:执行 hadoop-daemon.sh start zkfc...原创 2018-08-14 14:13:38 · 5608 阅读 · 0 评论