
数据分析
文章平均质量分 65
山木枝
这个作者很懒,什么都没留下…
展开
-
Hadoop及spark集群搭建踩过的坑
本集群总共有三台主机,一台master,两台slave Hadoop有一个节点无法启动 在按照教程子雨大数据之Spark入门教程(Python版)搭建Hadoop集群时,运行jps命令,发现master和其中一个slave能正常工作,运行./bin/yarn node -list发现只有一个alive节点再次申明:本文只是针对搭建集群中有一个节点无法启动,而不是所有的节点进一步观...原创 2018-10-12 16:20:21 · 956 阅读 · 0 评论 -
Spark读取本地文件时报错:java.io.FileNotFountException:file doesn't exist
在确认文件存在的情况下,出现这个问题的原因是:在集群中运行的pyspark。例如使用命令bin/pyspark --master yarn启动pyspark解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。解决方式2:直接将数据文件上传到hdfs,达到数据共享。...原创 2018-10-09 11:25:51 · 3855 阅读 · 0 评论 -
hadoop及spark集群搭建后续
问题1:查看 jps,里面只有HQuorumPeer,没有 HRegionServer查看logs,master rejected startup because clock is out of sync原因:几台机器时间对不上解决方法:将有问题机器的时间校正date -s xx:xx:xx然后重启regionserver hbase-daemon.sh --config ...原创 2018-11-10 16:57:14 · 617 阅读 · 0 评论 -
Hadoop的磁盘大小不一导致节点挂掉
问题描述DataNode挂载的磁盘或者DataNode节点挂载多个磁盘,如果存在一些磁盘大小不一样,数据在落盘时就可能会出现磁盘使用率不均匀的情况,容量较小的盘容易被写满,而容量大的盘还剩很多空间。磁盘写满后,影响Hadoop集群的正常工作。建好集群后需要将历史记录导入到hbase中,而集群中有三台主机外接了磁盘阵列,主机磁盘阵列大小四十多G,磁盘阵列大概1.6个T。运行将数据写入hbas...原创 2018-11-18 16:15:01 · 2824 阅读 · 0 评论