
spark
xiewenbo
互联网广告行业呆过几年,旅游公司呆过几年,对机器学习,自然语言处理,图像识别,个性化推荐 有兴趣
展开
-
spark0.9分布式安装
refer to :http://www.netfoucs.com/article/myboyliu2007/65317.htmlspark安装包:spark-0.9.0-incubating-bin-hadoop2.tgz操作系统: CentOS6.4jdk版本: jdk1.7.0_211. Cluster模式1.1安装Hadoop用转载 2014-03-28 15:36:59 · 1937 阅读 · 0 评论 -
[spark]倒排索引
ref: http://www.aboutyun.com/thread-12900-1-1.htmlimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.SparkContext._import scala.collection.mutable/** * * Crea转载 2015-12-27 15:53:29 · 1015 阅读 · 0 评论 -
[spark]groupbykey reducebykey
为什么建议尽量在Spark中少用GroupByKey,让我们看一下使用两种不同的方式去计算单词的个数,第一种方式使用reduceByKey ;另外一种方式使用groupByKey,代码如下:01# User: 过往记忆02# Date: 2015-05-1803#转载 2015-11-25 20:13:42 · 874 阅读 · 0 评论 -
[spark]Spark性能调优实战
Spark特别适用于多次操作特定的数据,分mem-only和mem & disk。其中mem-only:效率高,但占用大量的内存,成本很高;mem & disk:内存用完后,会自动向磁盘迁移,解决了内存不足的问题,却带来了数据的置换的消费。Spark常见的调优工具有nman、Jmeter和Jprofile,以下是Spark调优的一个实例分析:1、场景:精确客户群对一个容量为300g的客户信转载 2015-11-25 19:50:55 · 812 阅读 · 0 评论 -
[spark]Spark算子:RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex
mapPartitionsdef mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]该函数和map函数类似,只不过映射函数的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器。转载 2015-11-25 19:32:56 · 1569 阅读 · 0 评论 -
[spark]map 与 flatMap 的区别
通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:步骤二:在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt步骤三:查看转载 2015-11-25 19:28:37 · 482 阅读 · 0 评论 -
[spark]计算视频播放数每个区间占用比例
Printing elements of an RDDAnother common idiom is attempting to print out the elements of an RDD using rdd.foreach(println) or rdd.map(println). On a single machine, this will generate the expe转载 2015-11-25 19:23:23 · 1179 阅读 · 0 评论 -
spark-wordcount
在本地模式运行spark wordcount,需要引入spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar原创 2014-04-05 19:37:55 · 1459 阅读 · 0 评论 -
run spark on local
run a simple spark example on local原创 2014-04-04 15:09:46 · 1075 阅读 · 0 评论 -
统一资源管理与调度平台(系统)介绍
1. 背景随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4,…,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类应用问题。而在大部分互联网公司中,这几种框架可能都会采用,比如对于搜索引擎公司,可能的技术方案如下:网页建索引采用MapReduce框架,自然转载 2014-04-05 23:43:33 · 961 阅读 · 0 评论 -
深入剖析阿里巴巴云梯YARN集群
zhuan阿里巴巴作为国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。阿里巴巴的Hadoop集群,即云梯集群,分为存储与计算两个模块,计算模块既有MRv1,也有YARN集群,它们共享一个存储HDFS集 群。云梯YARN集群上既支持MapReduce,也支持Spark、MPI、RHive、RHadoop等计算模型。本文将详细介绍云梯YARN集群的 技术转载 2014-04-05 23:03:52 · 718 阅读 · 0 评论 -
Spark:一个高效的分布式计算系统
refer to:http://blog.jobbole.com/47791/概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和转载 2014-04-03 20:20:20 · 711 阅读 · 0 评论 -
spark note
SparkContext:def createSparkContext(): SparkContext = {val master = this.master match {case Some(m) => mcase None => {val prop = System.getenv("MASTER")if (prop != null) prop else "local"转载 2014-04-03 20:47:22 · 1698 阅读 · 0 评论 -
sbt公布assembly解决jar包冲突 deduplicate: different file contents found in the following
sbt assembly 近期使用sbt战斗assembly发生故障时,包,在package什么时候,发生jar包冲突/文件冲突,两个相同class来自不同jar包classpath内心冲突。有关详细信息:我有一个self4j的jar, hadoop-common-hdfs的jar包。当中hadoop-common-hdfs.jar内包括了self4j这个jar包,导致冲突。转载 2016-12-11 15:46:41 · 2846 阅读 · 0 评论