
Hadoop与Spark大数据平台
文章平均质量分 86
钱塘小甲子
不懂控制的歌手不是好的投资者,不会TCM的coder不是好的FRM
展开
-
Hadoop与Spark以及那些坑
这两天在搭建Hadoop与Spark的平台,要求是能够运行Spark,并且用python编程。笔者也不打算写一个很详细的细节教程,简单做一个笔记blog。1.选择 笔者一开始是在虚拟机上搭建的,创建了三个ubuntu虚拟机,然后开始布置分布式系统,但是,后来发现,资源完全不够用。笔者台式机16G内存,2T硬盘,i7第四代处理器,然而,还是被hadoop拖死。原创 2016-12-21 20:29:00 · 3418 阅读 · 0 评论 -
Python使用Hadoop进行词频统计
今天,我们利用python编写一个MapReduce程序,程序的目的还是百年不变的计算单词个数,也就是WordCunt。所谓mapreduce其实就是先分散计算后综合处理计算结果。首先我们来看一下map部分的代码。#!/usr/bin/env python import sys # input comes from STDIN (standard input)原创 2016-12-25 20:05:06 · 4182 阅读 · 0 评论