
分布式计算框架
IT_NEU_Lee
大数据开发 深度学习 机器学习 数据挖掘 Java开发 Python程序设计 软件测试开发
展开
-
Spark为什么要在Hadoop基础之上搭建
今天突然想到这个问题 但网上都是些复制粘贴的内容 不能很好地解答 经过查找资料 我在这里给出我的说明 仅供参考: 尽管Spark相对于Hadoop而言具有较大优势(速度快),但Spark并不能完全替代Hadoop,主要用于替代Hadoop中的MapReduce计算模型。(spark中也有MapReduce 但还有更多的用于处理的算子 相对来说处理更加多样化 更重...原创 2018-05-23 23:38:28 · 3384 阅读 · 0 评论 -
hadoop集群状态监控之Ganglia
ganglia安装 如下链接内容可供参考 (亲测可用):https://blog.youkuaiyun.com/wuzhongfei88/article/details/45317651 https://blog.youkuaiyun.com/knowledgeaaa/article/...转载 2018-09-01 16:15:09 · 418 阅读 · 0 评论 -
hadoop上传文件时WARN hdfs.DFSClient: DataStreamorg.apache.hadoop.ipc.RemoteException(java.io.IOException)
安装好Hadoop后一直没有用 今天往hdfs上传文件的时候突然出现如下bug,翻看别人的博客和相关查找后 发现是自己当时可能使用了两次hadoop namenode -format 命令 hadoop dfs -put ~/words.txt /testDEPRECATED: Use of this script to execute hdfs command is depreca...原创 2018-09-15 20:49:01 · 3538 阅读 · 0 评论 -
hadoop2.7.x运行wordcount程序卡住在INFO mapreduce.Job: Running job:job _1469603958907_0002
hadoop 运行wordcount出现卡死的状况 运行不下去 参考了下面的博客得到了解决 :https://www.cnblogs.com/xiangyangzhu/p/5711549.html转载 2018-09-15 22:14:08 · 2364 阅读 · 0 评论 -
flume使用注意事项
flume可以有多个source 多个channel 多个sink 为什么要把flume分为source chanel sink多个组件呢?有多个组件是为了更加灵活,可以得到不同的来源,传入不同的地方 也可以只有一个source channel 而没有sink也可以是其他情况agent---flumesource搜集数据(如:每次来一行数据,就读...原创 2019-03-21 11:24:39 · 916 阅读 · 0 评论