
大数据分布式框架
文章平均质量分 84
Ichimaru_Gin_
不能总做自己会的东西!
展开
-
Hadoop 2.8.2 和 Spark 2.1.0 分布式搭建及遇到的一些小问题
分布式搭建下载所需的安装包,建立相应的文件夹,将安装包发送到对应的安装包中去。安装JDK1. 解压安装包2. cd 进入解压后的文件夹,pwd获取JAVA_HOME路径/home/pangying/java/jdk1.8.0_1513. 配置环境变量4. 使配置生效5. 检查是否配置成功安装Hadoop1. 解压安原创 2018-01-05 10:44:08 · 788 阅读 · 0 评论 -
阿里云E-MapReduce SSH集群登录及本地查看Hadoop等系统的webUI
源起:终于到了租用云服务器的时候了,想想还有点小激动呢。EMR的官方文档上关于ssh集群登录的操作步骤已经很详细了,而且还有视频,但是实际操作的时候总会遇到一些意想不到的问题,于是我就把我配置的过程记录下来,以供参考。配置步骤:配置过程基本参照EMR的官方文档:SSH集群登录一、SSH登陆集群master节点1. 下载安装 PuTTY,Puttygen 2. 打开puutygen, 点击gene...原创 2018-06-21 11:22:06 · 1304 阅读 · 0 评论 -
spark 在集群运行时遇到的一些问题
人工导航:1,Exceptionin thread "main"org.apache.hadoop.ipc.RemoteException(java.io.IOException): File/user/pangying/.sparkStaging/application_1522735609126_0001/__spark_libs__4275647205298765018.zipcould o...原创 2018-04-03 17:11:07 · 4238 阅读 · 0 评论 -
Hadoop学习过程遇到的问题总结
问题一问题描述:8/01/22 16:52:16 WARN Client: Failed to connect to server: master/192.168.217.128:10020: retries get failed due to exceeded maximum allowed retries number: 10java.net.ConnectException原创 2018-01-22 21:33:42 · 4666 阅读 · 0 评论 -
Github项目 hadoop-imbalanced-preprocessing 如何运行
源起:hadoop-imbalanced-preprocessing是基于MapReduce实现的随机过采样,随机欠采样和SMOTE算法的程序,它主要解决在大数据环境下类别不平衡问题的数据预处理的问题。该项目直接集成在Mahout项目的代码里面。如果对hadoop 的MapReduce框架和Mahout了解很少的话,会对这个代码很难入手,不知道如何运行它。解决方案:我一开始没有去了解M原创 2018-01-17 16:40:18 · 647 阅读 · 0 评论 -
Hadoop MapReduce案例word count本地环境运行时遇到的一些问题
问题一加载不到主类原因:我一开始创建的是Map/Reduce Project, 它会直接去我本地安装的hadoop里面寻找相应的jar包。但是由于我一开始将hadoop放在D:\Program Files文件夹下,应为该路径中间有个空格,所以没有找到相应的jar包。解决方案:将hadoop移出D:\Program Files文件夹,直接放到D盘下,然后重新配置环境变量问题二lo原创 2018-01-08 17:13:04 · 1515 阅读 · 0 评论 -
Mahout random forest 随机森林小案例
写在前面菜鸟真的需要耗费大量的时间各种试才能解决问题啊。。。~~o(>_首先介绍一下我尝试的过程,大家可以参考着排排错。1. 我最初用的是mahout最新的0.13版本,想要按照官方给出的案例(Classifying with random forests)测试并学习一下随机森林的用法,但是发现根本没办法按照这个官方文档去做。虽然官方给出的0.13版本API的文档,但是它的测试用例还是原创 2018-01-24 20:52:16 · 1744 阅读 · 0 评论 -
Hadoop-Eclipse-Plugin 安装
写在前面每次遇到两三天解决不了的问题,我都会在心里说,这个问题要是解决了,我一定要整理出来写成博客。可是问题解决完成之后,就会觉得,原来这么容易就能解决,真不值得一写。其实这一次,我并没有解决所遇到的问题,只是绕过了问题。而且我知道,接下来还会有很多更难更复杂的问题等着我去解决。我不知道在这个过程中我会卡在哪个问题上以至于前功尽弃。我现在的状态几乎等于还有开始,我这样在心里上给自己打预防针原创 2018-01-07 21:06:32 · 16068 阅读 · 5 评论 -
Mahout 用朴素贝叶斯对20 Newsgroups 数据分类的案例
源起《Mahout in Action(Mahout 实战)》这本书的第14.6节有一个用朴素贝叶斯对20 Newsgroups 进行数据分类的案例,但是由于该出出版使用的是mahout0.6版本进行的实验,我用目前最新的0.13版本已经不能再重复这个实验了(mahout做了很多改动)。ERROR MahoutDriver: : Try the new vector backed naiv原创 2018-01-22 21:50:33 · 1007 阅读 · 0 评论 -
阿里云E-mapreduce 如何提交自己的jar包并运行
源起租用了E-mapreduce服务器,如何运行自己的spark程序。参考官方文档:点spark作业配置, 我只是更详细的描述一下操作步骤。操作步骤一、创建作业1. 作业2. 创建作业3. 输入你平常在虚拟机提交任务时的指令,并做以下修改: 1)只保留“spark-submit”之后的内容 (因为在后台提交时,它会自动加上这句话) 2)jar包的路径 是存在oss的buket中的,选择“选择O...原创 2018-06-22 16:01:54 · 1498 阅读 · 0 评论