
大数据
文章平均质量分 81
infovisthinker
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一个有点意思的问题,如何快速收敛超大的KMeans
被一个牛人问道了这个问题:超亿个节点,进行KMeans的聚类,每次迭代都要进行K×亿的运算,如何能让这个迭代快速的收敛?当场晕倒,从来没有考虑过这些问题,基础的数据挖据算法不考虑超大级别的运算问题。回来想了想,再看看Mahout的KMeans的实现方法,觉得可以这么解决.1. 第一次迭代的时候,正常进行,选取K个初始点,然后计算所有节点到这些K的距离,再分到不同原创 2015-04-09 13:46:52 · 2756 阅读 · 1 评论 -
如何在RedHat里面编译R源码并安装
为了使用SparkR,决定要在Spark所在的Linux上装上R,结果血泪篇了。随着spark 1.4之后SparkR的流行,估计会有不少人需要这个东西。主要原因是公司内部的虚机,无法连外网,所以网上很多的直接rpm或者yum的方法都没用,需要自己编译R的源码,中间因为Redhat Enterprise没有给装好gcc,又为了装gcc折腾了半天,终于现在通过了configure,可以m原创 2016-01-06 22:17:06 · 823 阅读 · 0 评论 -
初学者入门-用Spark ML来处理超大数据
还是转译KDNuggets的文章。微软的Dmitry Petrov介绍的如何用Spark ML来处理超过内存大小的数据。原创 2015-12-23 11:42:22 · 4634 阅读 · 0 评论 -
一个诡异的spark-submit运行问题(已解决)
今天在测试刚刚部署好的spark集群的时候,碰到了一个诡异的spark-submit问题。搜了一圈也没发现,结果意外的找到了原因,真是欲哭无泪!问题:写好了一个计算Pi的程序,编译打包成 ComputePi.jar包,放到spark集群的master上,然后用命令spark-submit --master spark://master1:7077 --class com.ibm.j原创 2015-12-22 21:32:09 · 11424 阅读 · 6 评论 -
hadoop集群的搭建脚本及构思(N):一个简化的Hadoop+Spark on Yarn集群快速搭建
为了一篇正在准备的用spark做文本分析的博文,快速搭建了一个4节点的Spark on Yarn+Hadoop的集群。算是给这个系列的一点简单小结。因为资源的限制,HA的hadoop的集群搭建还要在等一段时间才能来继续了。由于工作内容变动,有一段时间没有搞环境搭建,这次居然手生了很多,所这里也快速的记录一下自己的步骤来当做文档。-- 机器配置4台虚机,一个master,3个slav原创 2015-12-22 21:07:54 · 1585 阅读 · 0 评论 -
数据分析工具之战,R 和 Python的PK
上一个项目中需要给客户推荐数据分析工具,目标地位在SPSS、SAS、R和Python这四个工具上。在百度上过了一圈,看不到特别好的帖子。而自己只对SPSS和手写code比较熟,SAS没有接触过,对R和Python的使用和理解和都比较肤浅,所以最后写的对比自己都觉得不是很满意。今天在KDNuggets上看到两篇对比R和Python的文章,老美写的挺好,这里总结一下,分享出来。原文链接在文翻译 2015-11-10 12:56:10 · 2538 阅读 · 0 评论 -
hadoop集群的搭建脚本及构思(二):程序文件的管理思路
安装了几次hadoop系统后终于开始有了一点感觉,对程序文件的管理有了一点想法,这里先记着。等搞完了再仔细地总结一下。网络上的基本教程都是从0开始,建用户,建目录,拷贝压缩包,然后再解压,再修改配置文件,再修改系统配置文件;然后从一个机器(基本是master node)同步到其他的nodes上去,再统一启动。整个过程中,其实除了很少的一些配置不一样(比如zookeeper里面的id文件原创 2015-07-08 17:17:57 · 1166 阅读 · 0 评论 -
hadoop集群的搭建脚本及构思(一):用户和用户权限
打算搞一个复杂的Hadoop 2.6集群,加上Zookeeper来搞HA,再部署上HBase,Hive等一系列的东西。发现机器多了,从建虚机到配置都不能再靠命令行一条一条的敲,需要搞脚本出来自动/半自动执行。其实想想,这个部署的过程就是一个类似PaaS的任务。完全可以搞成可视化的部署工具。当年搞十八摸的中间件的部署就是有这样的工具。可以自己先定义所需要的系统拓扑,比如一个WAS ND的集群,要原创 2015-06-16 12:03:38 · 2762 阅读 · 0 评论 -
Hadoop 2.6 日志文件和MapReduce的log文件研究心得
学习演练Hadoop 2.6有一段日子了。现在才大致搞清楚了系统里面各个log的位置和功能,在这里总结一下。网上的资料并不丰富,甚至Google出来的结果也不是很满意,或许这个是太简单了,牛人都不屑来写。也可能是各个公司藏着掖着的东西。Hadoop 2.6包含两个大部分:DFS和Yarn,而Yarn里面又包含在Resource Manager的JVM中运行的部分和在Node Manag原创 2015-04-29 18:30:20 · 14166 阅读 · 3 评论 -
两个Mapper初始化输出类错误的心得:Unable to initialize any output collector
今天在跑两个关系运算的代码,结果接连两次都出现了同样的一个错误:Error: java.io.IOException: Unable to initialize any output collector at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:412) at org.apache.h原创 2015-04-20 17:17:13 · 9206 阅读 · 1 评论 -
Windows7上安装TensorFlow的GPU版本后记
上一篇写了之前在我的Windows7上安装TensorFlow GPU版的一路坑坑洼洼,本以为已经解决了。但实际上在过年的几天内,又一次出现了问题。经过了反复的尝试,到今天为止终于稳定下来,特此记录一下。但是具体原因还是不十分清楚。上一篇写到用CUDA自带的安装包里的390.60版显卡驱动程序完成安装后,终于可以运行TensorFlow的例子在GPU上了,很是开心了一阵子。但就在带回家过年的几原创 2017-02-14 11:20:39 · 5552 阅读 · 14 评论