
Spark
文章平均质量分 69
u013063153
这个作者很懒,什么都没留下…
展开
-
sparkSQL中udf的使用
在Spark中使用sql时一些功能需要自定义方法实现,这时候就可以使用UDF功能来实现多参数支持UDF不支持参数*的方式输入多个参数,例如String*,不过可以使用array来解决这个问题。定义udf方法,此处功能是将多个字段合并为一个字段def allInOne(seq: Seq[Any], sep: String): String = seq.mkString转载 2016-11-04 16:34:47 · 1042 阅读 · 0 评论 -
Spark技术内幕:究竟什么是RDD
RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码,分析RDD的实现。第一个问题,RDD是什么?Resi转载 2016-11-07 17:15:27 · 522 阅读 · 0 评论 -
新手福利:Apache Spark入门攻略
【编者按】时至今日,Spark已成为大数据领域最火的一个开源项目,具备高性能、易于使用等特性。然而作为一个年轻的开源项目,其使用上存在的挑战亦不可为不大,这里为大家分享SciSpike软件架构师Ashwini Kuntamukkala在Dzone上进行的Spark入门总结(虽然有些地方基于的是Spark 1.0版本,但仍然值得阅读)—— Apache Spark:An Engine for L转载 2016-11-04 16:45:55 · 681 阅读 · 0 评论 -
Spark入门教程及经验总结
问题导读:1.cluster mode 模式运行包含哪些流程?2.yarn mode 运行模式有什么特点?3..在关闭http file server进程时,遇到什么错误?一、环境准备测试环境使用的cdh提供的quickstart vmhadoop版本:2.5.0-cdh5.2.0spark版本:1.1.0二、Hello Spark转载 2016-11-08 12:21:37 · 1961 阅读 · 0 评论 -
spark dataframe操作集锦(提取前几行,合并,入库等)
Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到Hive中。转载 2016-11-28 18:33:55 · 4876 阅读 · 0 评论 -
IntelliJ Idea 常用快捷键列表
Alt+回车 导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等)Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+Shift+Space 自动转载 2016-11-28 19:18:48 · 277 阅读 · 0 评论 -
Spark基础知识学习分享
原文链接:http://blog.youkuaiyun.com/lantian0802/article/details/22507525一、Spark基础知识梳理1.Spark是什么? Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于转载 2016-10-31 22:55:58 · 555 阅读 · 0 评论 -
Spark笔记:RDD基本操作(下)
上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。 Spark是一个计算框架,是对mapreduce计算框架的改进,mapreduce计算框架是基于键值对也就是map的形式,之所以使用键值对是人们发现世界上大部分计算都可以使用map这样的简单计算模型进行计算。但是Spark里转载 2016-11-29 11:11:58 · 3211 阅读 · 0 评论 -
Spark笔记:RDD基本操作(上)
原文链接:http://www.cnblogs.com/sharpxiajun/p/5506822.html#fillback=0100307b617b7b7b373137623733653633647b617b7b240000&anchor=testanchor本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无转载 2016-11-29 11:08:53 · 2019 阅读 · 0 评论 -
Spark函数详解系列之RDD基本转换
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 A转载 2016-11-29 11:35:50 · 482 阅读 · 0 评论 -
Spark Streaming--实战篇
摘要: Sprak Streaming属于Saprk API的扩展,支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(fault-tolerant)的流处理。可以接受来自KafKa,Flume,ZeroMQ Kinesis Twitter或TCP套接字的数据源,处理的结果数据可以存储到文件系统 数据库 现场dashbo转载 2016-11-29 11:39:26 · 581 阅读 · 0 评论 -
Spark DataFrames入门指南:创建和操作DataFrame
一、从csv文件创建DataFrame 本文将介绍如何从csv文件创建DataFrame。如何做? 从csv文件创建DataFrame主要包括以下几步骤: 1、在build.sbt文件里面添加spark-csv支持库; 2、创建SparkConf对象,其中包括Spark运行所有的环境信息; 3、创建SparkContext对象,它是进入Spark的核心切入转载 2016-11-29 15:50:28 · 6147 阅读 · 0 评论 -
Spark计算模型
1.Spark程序示例数据处理流水线:val file = sc.textFile("hdfs://xxx") //1)输入与构造RDDval errors = file.filter(line=>line.contains("EORROR")) //2)转换Transformationerrors.count() //3)输出Action数据结构RDD + 算法(两类原创 2016-11-10 17:07:43 · 626 阅读 · 0 评论 -
Spark-SQL之DataFrame操作大全
原文链接:http://blog.youkuaiyun.com/dabokele/article/details/52802150转载 2016-11-04 17:12:36 · 394 阅读 · 0 评论 -
spark dataframe函数编程
以下函数的说明之针对于spark1.4.1dataframe类的说明。 Only for Spark version1.4.1 DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组,返回dataframe集合所有的行 2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行 3、 cou转载 2016-11-20 00:06:25 · 3689 阅读 · 0 评论 -
编写第一个用scala写的spark任务,用sbt打包成jar,并单机模式下运行
一、编写第一个用scala写的spark应用:仿照spark的 quick-start的Self-Contained Applications写出第一个scala完整程序链接如下:http://spark.apache.org/docs/latest/quick-start.html即:/* SimpleApp.scala */import org.apache.sp转载 2016-11-20 10:01:09 · 6867 阅读 · 0 评论 -
Spark:用Scala和Java实现WordCount
http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写Scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Java实现WordCount,其中Java实现的JavaWordCount是Sp转载 2016-11-20 10:03:33 · 485 阅读 · 0 评论 -
Spark算子总结及案例
spark算子大致上可分三大类算子: 1、Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 2、Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。 3、Action算子,这类算子会触发SparkContext提交作业。转载 2016-11-20 20:53:57 · 498 阅读 · 0 评论 -
spark分布式数据集操作
转换(Transformations)TransformationMeaningmap( func)返回一个新的分布式数据集,由每个原元素经过func函数转换后组成filter( func)返回一个新的数据集,由经过func函数后返回值为true的原元素组成flatMap(原创 2016-11-21 10:10:45 · 1684 阅读 · 0 评论 -
Spark aggregate函数简解示例
aggregate函数将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值zeroValue进行combine操作。这个函数最终返回的类型不需要和RDD中的元素类型一致。示例:解释:原创 2016-11-21 13:57:29 · 706 阅读 · 0 评论 -
Spark的架构
Spark集群中的Master负责集群整体资源管理和调度,Worker负责单个节点的资源管理。Driver程序是应用逻辑执行的起点,而多个Executor用来数据进行并行处理。Spark的构成:-ClusterManager:在standalone模式中即为,Master:主节点,控制整个集群,监控Worker。在YARN模式中为资源管理器。-Worker:从节点,负责控制计算原创 2016-11-11 10:15:48 · 603 阅读 · 0 评论 -
Spark的调度
作业调度简介设计者将资源进行不同粒度的抽象建模,然后将资源统一放入调度器,通过一定的算法进行调度,最终要达到高吞吐或者低访问延时的目的。Spark在各种运行模式中各个角色实现的功能基本一致,只不过是在特定的资源管理器下使用略微不同的名称和调度机制。Application调度一个Application中包含多个Job,每个Job包含多个Stage,每个Stage包含多个Tas原创 2016-11-21 16:53:03 · 620 阅读 · 0 评论 -
用实例讲解Spark Sreaming
原文链接:http://www.infoq.com/cn/articles/spark-sreaming-practice本篇文章用Spark Streaming +Hbase为列,Spark Streaming专为流式数据处理,对Spark核心API进行了相应的扩展。什么是Spark Streaming?首先,什么是流式处理呢?数据流是一个数据持续不断到达的无边界序列转载 2016-12-12 14:22:14 · 817 阅读 · 0 评论 -
Kafka+Spark Streaming+Redis实时计算整合实践
原文链接:http://shiyanjun.cn/archives/1097.html基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于转载 2016-12-12 15:28:37 · 744 阅读 · 0 评论 -
Flume日志收集分层架构应用实践
原文链接:http://shiyanjun.cn/archives/1497.htmlFlume作为一个日志收集工具,非常轻量级,基于一个个Flume Agent,能够构建一个很复杂很强大的日志收集系统,它的灵活性和优势,主要体现在如下几点:模块化设计:在其Flume Agent内部可以定义三种组件:Source、Channel、Sink组合式设计:可以在Flume A转载 2016-12-12 15:30:44 · 419 阅读 · 0 评论 -
Spark SQL和Hive使用场景?
作者:狗叔链接:https://www.zhihu.com/question/36053025/answer/121404733来源:知乎著作权归作者所有,转载请联系作者获得授权。Hive是什么?一个建立在分布式存储系统(这里指HDFS)上的SQL引擎。为什么要有Hive呢?因为有了Hadoop后,大家发现存储和计算都有了,但是用起来很困难。去厂商那里一看,清一色Ora转载 2016-12-12 15:50:40 · 9557 阅读 · 0 评论 -
Spark之中map与flatMap的区别
map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,这样就得到了一个由各列表中的元素组成的RDD,而不是一个列表组成的RDD。有些拗口,看看例子就明白了。val rdd = sc.parallelize(List("coffee panda","happy panda","原创 2016-11-23 13:31:57 · 15127 阅读 · 2 评论 -
Spark RDD、DataFrame、DataSet区别和联系
左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除原创 2016-11-24 10:52:25 · 4252 阅读 · 0 评论 -
深入理解groupByKey、reduceByKey
测试源码下面来看看groupByKey和reduceByKey的区别: val conf = new SparkConf().setAppName("GroupAndReduce").setMaster("local") val sc = new SparkContext(conf) val words = Array("one", "two", "two", "th转载 2016-11-24 14:42:26 · 1899 阅读 · 0 评论 -
大数据下的用户行为分析
1. Consumer behaviour is the study of when,why,how and where people do or don't buy a product。用户行为一般指用户通过中间资源,购买、使用和评价某种产品的记录。同时辅以用户、资源、产品自身及环境的信息。用户行为记录一般可以表示一组属性的集合:{属性1,属性2,...,属性N}2. 用户行为分转载 2016-11-24 16:16:21 · 3456 阅读 · 1 评论 -
Spark WordCount使用示例
package com.sparktestimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 使用scala开发本地测试的Spark WordCount程序 */object WordCount { def main(args: Array[String]原创 2016-12-07 15:00:14 · 1563 阅读 · 0 评论 -
Spark SQL UDF使用
Spark1.1推出了Uer Define Function功能,用户可以在Spark SQL 里自定义实际需要的UDF来处理数据。 因为目前Spark SQL本身支持的函数有限,一些常用的函数都没有,比如len, concat...etc 但是使用UDF来自己实现根据业务需要的功能是非常方便的。 Spark SQL UDF其实是一个Scala函数,被catalyst封装转载 2016-11-26 20:19:28 · 963 阅读 · 0 评论 -
使用Akka来优化Spark+ElasticSearch的准实时系统
假如有这样一个场景:系统每秒钟都会收到大量的事件,每个事件又包含很多参数,用户不仅需要准实时地还需要定期地判断每一种事件、事件的每一种参数值的组合是否超过了系统设定的阈值。面对这一场景,用户应该采用什么样的方案呢?最近,来自于 Premium Minds 的软件架构师 André Camilo 在博客上发表了一篇文章,介绍了他们是 如何使用Akka解决这一棘手问题的 。在该文章中André转载 2016-12-16 10:24:27 · 846 阅读 · 0 评论 -
Spark集群三种部署模式的区别
目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一转载 2016-12-14 11:02:07 · 16240 阅读 · 1 评论 -
Spark RDD
1.RDD是什么?RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group b转载 2016-12-15 11:34:45 · 373 阅读 · 0 评论 -
JVM(java 虚拟机)内存设置
一、设置JVM内存设置1. 设置JVM内存的参数有四个:-Xmx Java Heap最大值,默认值为物理内存的1/4,最佳设值应该视物理内存大小及计算机内其他内存开销而定;-Xms Java Heap初始值,Server端JVM最好将-Xms和-Xmx设为相同值,开发测试机JVM可以保留默认值;-Xmn Java Heap Young区大小,不熟悉最好保转载 2016-12-23 11:32:25 · 385 阅读 · 0 评论 -
推荐算法中的 相似度计算
对用户的行为进行分析得到用户的偏好后,可以根据用户的偏好计算相似用户和物品,然后可以基于相似用户或物品进行推荐。这就是协同过滤中的两个分支了,即基于用户的协同过滤和基于物品的协同过滤。 关于相似度的计算,现有的几种方法都是基于向量(Vector)的,其实也就是计算两个向量的距离,距离越近相似度越大。在推荐场景中,在用户-物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个原创 2016-12-23 16:42:45 · 21526 阅读 · 0 评论 -
Spark MLlib ALS交替最小二乘法 实例
1.训练数据数据格式为:用户id,物品id,评分1,1,5.01,2,1.01,3,5.01,4,1.02,1,5.02,2,1.02,3,5.02,4,1.03,1,1.03,2,5.03,3,1.03,4,5.04,1,1.04,2,5.04,3,1.04,4,5.02.实例代码package com.原创 2016-12-23 14:03:02 · 2571 阅读 · 3 评论 -
王家林 大数据Spark超经典视频链接全集[转]
压缩过的大数据Spark蘑菇云行动前置课程视频百度云分享链接链接:http://pan.baidu.com/s/1cFqjQuSCALA专辑Scala深入浅出经典视频链接:http://pan.baidu.com/s/1i4Gh3Xb 密码:25jcDT大数据梦工厂大数据spark蘑菇云Scala语言全集(持续更新中)http://www.tudou.com/plc转载 2016-12-19 10:41:35 · 6627 阅读 · 2 评论 -
基于Spark机器学习和实时流计算的智能推荐系统
原文链接:http://blog.youkuaiyun.com/qq1010885678/article/details/46675501概要:随着电子商务的高速发展和普及应用,个性化推荐的推荐系统已成为一个重要研究领域。 个性化推荐算法是推荐系统中最核心的技术,在很大程度上决定了电子商务推荐系统性能的优劣,决定着是否能够推荐用户真正感兴趣的信息,而面对用户的不断提升的需求,推荐系统不仅需转载 2016-12-20 10:19:17 · 12177 阅读 · 3 评论