
********Spark
冥想者-定
缘起性空
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark初级入门详解
本帖最后由 nettman 于 2015-3-31 17:20 编辑问题导读1.spark中什么是Application?2.spark中什么是Driver Program?3.Executor负责什么?4.什么是Stage?5.客户Spark程序(Driver Program)来操作Spark集群是通过哪个对象来进行的?6.创建SparkContext一般要经过几转载 2015-04-01 19:31:55 · 2110 阅读 · 0 评论 -
spark博客 http://www.cnblogs.com/cenyuhai/p/3537249.html Spark作业调度
http://www.cnblogs.com/cenyuhai/p/3537249.html Spark在standalone模式下,默认是使用FIFO的模式,我们可以使用spark.cores.max 来设置它的最大核心数,使用spark.executor.memory 来设置它的内存。 在YARN模式下,使用--num-workers设置worke转载 2016-06-07 20:24:19 · 409 阅读 · 0 评论 -
spark的工作机制详细介绍、spark源码编译、spark编程实战
spark通信模块1、spark的 cluster manager可以 有 local , standalone, mesos , yarn等部署方式,为了集中通信方式1、rpc remote produce callspark的通信机制:akka的优势和特性如下:1、并行和分布式:akka在设计时采用了异步通信和分布式架构2、可靠性:在本地、远程都有监控和恢复机转载 2016-06-03 14:05:18 · 869 阅读 · 0 评论 -
Spark RDD详解
http://www.codexiu.cn/spark/blog/15766/Spark RDD详解1、RDD是什么RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。RDD的描述Int转载 2016-06-26 22:54:47 · 451 阅读 · 0 评论 -
spark 优化
1、如何观察性能 1、web ui2、driver程序控制台日志3、logs文件夹的的日志4、work文件夹下的日志5、profiler工具例如一些jvm的profiler工具,如9.2.1 调度与分区的优化 page=240转载 2016-06-06 15:19:17 · 353 阅读 · 0 评论 -
使用Spark计算PV、UV
版权声明:本文为博主原创文章,未经博主允许不得转载。日志字段格式:id,ip,url,ref,cookie,time_stamp把日志文件放到HDFS。仅取了1000行。[plain] view plain copy hadoop fs -put 1000_log hdfs://localhost:9000/user/root转载 2016-07-24 22:52:43 · 4418 阅读 · 0 评论 -
第七十六讲 SparkSQL pv简单案例
http://blog.sina.com.cn/s/blog_9ca9623b0102wbn4.html第七十六讲 SparkSQL pv简单案例userLog.log(上一讲生成的日志)数据上传hivehive –service metastore &启动Spark集群./spark-sql –master spark://Ma转载 2016-07-24 23:22:35 · 358 阅读 · 0 评论 -
一个为spark批量导入数据到hbase的库
https://github.com/TopSpoofer/hbrdd转载 2016-07-25 23:23:00 · 2089 阅读 · 0 评论 -
sparkSQL中 DataSet 和 DataFram区别
1/dataSet 可以定义类型,可以定义类型,能对各种列进行各种精细操作2/dataFram 能注册成表。然后直接写sql语句就能操作了================DataFram==============================================val df = spark.read.json("examples/src/main/转载 2016-07-28 15:37:27 · 1198 阅读 · 0 评论 -
Apache Spark DataFrames入门指南:创建DataFrame
Apache Spark DataFrames入门指南:创建DataFramehttp://www.iteblog.com/archives/1565(转1:从csv文件创建DataFrame1/在build.sbt文件里面田间spark-csv支持库 com.databricks spark-csv_2.10 1.3.03/impor转载 2016-07-28 16:47:04 · 535 阅读 · 0 评论 -
Apache Spark DataFrames入门指南:操作DataFrame
Apache Spark DataFrames入门指南:操作DataFrame转:http://www.iteblog.com/archives/15661/打印dataFram里面的模式 printSchema 2/对dataFrame里面的数据进行采样 使用的是show函数3/查询dataframe里面的列 s转载 2016-07-28 16:47:25 · 674 阅读 · 0 评论 -
Spark面对OOM问题的解决方法及优化总结
转载请保持完整性并注明来源链接: http://blog.youkuaiyun.com/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后转载 2016-11-04 12:10:06 · 680 阅读 · 0 评论 -
yarn-cluster 和yarn-client区别
spark支持可查吧的集群管理模式(standalone/mesos以及yarn);集群管理负责启动executor进程,编写spark application的人根本不需要知道spark用的是什么集群管理。spark 支持的三种集群模式,这三种集群模式都由两个组件组成:master和slave。 master服务(yarn resourcemanager ,mesos master 和spar转载 2016-11-07 17:01:50 · 1725 阅读 · 0 评论 -
Spark调优
因为Spark是内存当中的计算框架,集群中的任何资源都会让它处于瓶颈,CPU、内存、网络带宽。通常,内存足够的情况之下,网络带宽是瓶颈,这时我们就需要进行一些调优,比如用一种序列化的方式来存储RDD来减少内存使用,这边文章就讲两种方式,数据序列化和内存调优,接下来我们会分几个主题来谈论这个调优问题。1、数据序列化(1) Spark默认是使用Java的ObjectOutputStre转载 2016-06-07 18:47:38 · 350 阅读 · 0 评论 -
spark 5、共享变量
5、共享变量 Spark提供了两种限制的共享变量,Broadcast和Accumulators。 (1)Broadcast允许程序员持有一个只读的变量在各个节点之间,它一个常用的场景就是用它来存储一个很大的输入的数据集给每个节点使用,Spark会只用它独有的广播算法来减少通信损失。下面是例子:scala> val broadcastVar = sc.broadcas转载 2016-06-07 17:48:03 · 333 阅读 · 0 评论 -
spark中的action和transformation
版权声明:本文为博主原创文章,未经博主允许不得转载。本文提供的是0.7.3版本中的action和transformation接口,RDD提供了两种类型的操作:transformation和action1,transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD2,action是得到一个值,或者一个结果(直接将RDD转载 2016-06-07 15:46:50 · 371 阅读 · 0 评论 -
从安装java 到hadoop 到spark 的全套步骤,很详细, 高档大气上档次
http://www.tuicool.com/articles/2e2q2y转载 2015-04-26 11:50:40 · 524 阅读 · 0 评论 -
安装spark
Apache Spark1.1.0部署与开发环境搭建 - Mark Lin时间 2014-10-01 14:57:00 博客园-原创精华区原文 http://www.cnblogs.com/datahunter/p/4002331.htmlSpark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构。与转载 2015-04-26 15:12:05 · 970 阅读 · 0 评论 -
如何使用Spark ALS实现协同过滤
http://blog.javachen.com/2015/06/01/how-to-implement-collaborative-filtering-using-spark-als.html本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结,希望对大家熟悉Spark ALS算法有所帮助。更新:【2016.06.12】Spark转载 2015-08-26 10:20:32 · 751 阅读 · 0 评论 -
Apache Spark 不过时的六大理由
http://www.youkuaiyun.com/article/2015-08-26/2825542Apache Spark 不过时的六大理由发表于19小时前| 1236次阅读| 来源优快云| 2 条评论| 作者Peter Schlampp云计算SparkHadoop摘要:Spark可能并不成熟,但将会持续下去。本文作者Peter Schlampp 是大数转载 2015-08-27 09:16:21 · 3114 阅读 · 0 评论 -
Spark MLlib系列(二):基于协同过滤的电影推荐系统
前言随着大数据时代的到来,数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势,使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个spark MLlib 的推荐实战例子。我将会分享怎样用spark MLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对Spark MLlib不太了解的,请阅读我的转载 2015-08-17 13:27:49 · 1120 阅读 · 0 评论 -
我的第一个spark workcount程序
1、建立maven项目pom.xml内容 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> 4.0.0 com.test spark 0.0.1 jar spark http:原创 2015-08-18 13:58:39 · 719 阅读 · 0 评论 -
spark 官网例子 统计一篇文章包含字母a的个数
代码: import org.apache.spark.api.java.*;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.Function;public class SimpleApp { public static void main(String[]原创 2015-08-18 14:23:58 · 1651 阅读 · 0 评论 -
Spark 开发指南(版本spark1.1.1)
http://www.aboutyun.com/thread-10531-1-1.html问题导读1.Spark中RDD是什么?2.Spark支持哪两种类型的共享变量?3.如何将一些Spark的类和隐式转换导入到程序中?4.Spark Scala API读取数据,除了支持文本文件,还支持什么格式?5.RDD有哪种操作?6.spark有哪些通用转换和动作?7.转载 2015-08-19 09:21:55 · 683 阅读 · 0 评论 -
spark相比hadoop的 优势如下
1、中间结果输出 基于mr的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。处于任务管道承接的考虑,当一些查询翻译到mr任务时,旺旺会产生多个stage,而这些串联的stage又依赖于底层文件系统(如hdfs)来存储每一个stage的输出结果。spark将执行模型抽象为通用的有向无环图,dag计划 着可以将多个stage的任务串联或者并行执行,而无需将stage中间结果输出到hdf转载 2016-05-30 15:56:20 · 3852 阅读 · 0 评论 -
spark的架构
spark架构采用了分布式计算中的master-slave模型,master是对应集群中含有master进程的节点,slave是集群中含有worker进程的节点,master作为整个集群的控制器,负责整个集群的正常运行,worker相当于是计算节点,接受主节点命令与进行状态汇报。Executor负责任务的执行,client作为用户的客户端负责提交应用,driver负责控制一个应用的执行 s转载 2016-05-30 16:56:12 · 991 阅读 · 0 评论 -
spark部署、计算模型、内部执行原理、工作机制详解
1、spark的安装和部署转载 2016-05-31 14:16:26 · 954 阅读 · 0 评论 -
spark 调度
1、fair调度模式 就是需要用户配置权重2、配置调度池 用户可以通过配置文件自定义调度池的属性1、调度模式2、权重3、minshare 配置多少个cpu的内核stage 和 tasksetmanager调度 stage的调度是由dagscheduler完成的,由rdd的有向五环图dag切分除了stage的有向五环图 stage的dag通过最后执行转载 2016-05-31 18:13:35 · 517 阅读 · 0 评论 -
【Scala】使用Option、Some、None,避免使用null
【Scala】使用Option、Some、None,避免使用null字数1522 阅读5207 评论1 喜欢8避免null使用大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是“无”,在Java,它是null。在Java 里,null 是一个关键字,不是一个对象,所以对它调用任何方法都是非法的。但是这对语言设计者来说是一件令人疑惑的选择。为什么要在程序员希望返转载 2016-10-20 18:32:14 · 1044 阅读 · 0 评论