
spark
文章平均质量分 81
王小禾
武汉理工大学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkCore-2-Spark几种提交方式
1.local仅用于开发环境单机调试。1.standalone方式standalone是spark自带的资源调度框架。这种方式下需要配置Mater和Worker,并启动Master服务(如7077端口的)。该模式下,也可以client或cluster模式运行。...原创 2020-07-04 17:59:26 · 3211 阅读 · 0 评论 -
SparkCore-1-概览
1.RDD(ResilientDistributedDataset)• 五大特性:– A list of partitions– A function for computing each partition– A list of dependencies on other RDDs– Optionally, a Partitioner for key-value RDDs • shuffle的时候– Optionally, a list of preferred locations to co原创 2020-07-02 20:47:53 · 159 阅读 · 0 评论 -
SparkSQL(1)-SQL/DataFrame/Datasets(course58)
Datasets and DataFramesStarting Point SparkSession代码演示1. Datasets and DataFrames a DataFrame is represented by a Dataset of Rows. DataFrame就是Dataset的行。 —spa原创 2017-12-29 14:10:26 · 390 阅读 · 0 评论 -
spark(15)-Spark Shuffle(corse24)
Shuffle1 概念2 Shuffle可能面临的问题Hash Shuffle1 HashShuffle的两大缺陷1. Shuffle1.1 概念 Shuffle是洗牌的意思。需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。1.2 Shuffle可能面临的问题运行Task的时候才会产生Shuffle(Shuffle已经融化在Spark的算原创 2017-12-12 16:49:17 · 235 阅读 · 0 评论 -
spark(14)-从物理执行的角度透视Spark Job(corse23)
1. 从物理执行的角度透视Spark Job学习内容:1、再次思考pipeline 2、窄依赖物理执行内幕 3、宽依赖物理执行内幕 4、Job提交流程1.1、再次思考pipeline即使采用pipeline的方式,函数f对依赖的RDD中的数据集合的操作也会有两种方式 1)f(record), f作用于集合的每一条记录,每次只作用于一条记录 2)f(records),f一次性作用于集合点原创 2017-12-12 16:15:20 · 455 阅读 · 0 评论 -
spark(13)-RDD的依赖关系(corse22)
1. RDD的依赖关系彻底解密RDD依赖关系:窄依赖、宽依赖 窄依赖是指每个父RDD的Partition最多被一个子RDD的一个Partition所使用,例如map, filter等都会产生窄依赖 宽依赖是指一个父RDD的Partition被多个子RDD的Partition所使用,例如groupByKey, reduceByKey等操作都会产生宽依赖总结: 如果父RDD的一个Partition被原创 2017-12-12 14:40:03 · 401 阅读 · 0 评论 -
spark(12)-从Spark架构中透视Job(course21)
从Spark架构中透视Job1、通过案例观察Spark架构 2、手动绘制Spark内部架构 3、Spark Job的逻辑视图解析 4、Spark Job的物理视图解析spark粗粒度Spark主从分布: Master Worker在配置文件spark-env.sh中有内存、core的配置 spark-shell默认情况下没有任何job Executors个数有5个,其中4原创 2017-12-12 14:09:44 · 621 阅读 · 0 评论 -
spark(11)-Top N(course20)
基础topN原理1 操作实践排序取前N项 说明:只要是改变列的个数数据,一般都是用map操作,map操作可以将原有的一行(作为一个key),映射成新的键值对,如file.map(line => (line.toInt,line))//原来的line作为value,原来的line进行变换后作为key1. 基础topN原理:将读取的文件的每一行中,多增加一个字段作为key,map操作即可(jav原创 2017-12-11 22:54:24 · 215 阅读 · 0 评论 -
spark(10)-spark高级排序(course19)
1.内容 基础排序算法实战 二次排序算法实战 更高级排序算法 排序算法内幕解密//修改一下log级别scala> sc.setLogLevel("WARN")2.二次排序就是排序的时候考虑两个维度,维度1相同时,再排维度2例如数据源: SecondSort.txt2 3 4 1 3 2 4 3 9 7 2 13.实现Ordered(排序规则),Serializable接口原创 2017-12-11 17:24:57 · 277 阅读 · 0 评论 -
spark(9)-RDD持久化、广播、累加器(course18)
1. 持久化action操作: 常用action:reduce, count, take, collect,countByKey, saveAsTextFile凡是actoin级别的操作都会触发sc.runjob( ) 一个spark应用程序可以有很多个job,hadoop中只有一个Spark所有的算法 都有persit。persit原因: Spark在默认情况下,数据放在内存,适合高速迭代,原创 2017-12-10 17:35:59 · 332 阅读 · 0 评论 -
spark(8)-spark RDD API(course16)
RDD的操作TransformationActionControllerTransformation API mapfunc filter flatMap groupByKey reduceByKey sortByKey join cogroupAction API reduce collect count taken saveAsTextFile countB原创 2017-12-08 14:03:41 · 231 阅读 · 0 评论 -
spark(7)-spark RDD的创建(course15)
1. RDD的创建1.1 RDD创建方式RDD的3种基本的创建方式使用程序中的集合创建RDD;使用本地文件系统创建RDD;使用HDS创建RDD其他:基于DB创建RDD基于NoSQL,例如HBase基于S3创建RDD基于数据流创建RDD不同方式的意义通过集合创建RDD的实际意义:测试使用本地文件系统创建RDD的作用:测试大量数据文件使用HDFS创建RDD:生产环境最常用的RDD原创 2017-12-07 22:20:56 · 210 阅读 · 0 评论 -
spark(6)-spark RDD(course14)
1. Spark RDD1.1 spark RDD简介 RDD是spark的基石。 RDD提供了通用的抽象。 现在Spark有5个子框架 SparkStreaming、SparkSQL、SparkML、GraphX、SparkRRDD弹性:1. 自动的进行内存和磁盘数据存原创 2017-12-07 17:10:05 · 288 阅读 · 0 评论 -
spark(5)-spark内核架构(course13)
1. Spark内核架构1.1 spark runtime流程示意图原创 2017-12-07 13:00:58 · 664 阅读 · 0 评论 -
spark(4)-高可用HA zookeeper原理及环境搭建
1. Spark集群结构图2. Zookeeper配置1.1 Word Count流程示意图原创 2017-12-06 13:02:15 · 567 阅读 · 0 评论 -
spark(3)-wordcount原理解析
Spark 2.1.2 released 参考:http://spark.apache.org/examples.html在上一篇spark(1)-入门spark之scala sbt wordcount实验的基础上,继续学习java版本wordcount实验。1. Spark WordCount Examples by JavaWor原创 2017-12-05 14:51:07 · 560 阅读 · 0 评论 -
spark(2)-入门spark之java maven wordcount实验
第一个java spark wordcount实验spark官网 WordCount Example实验原创 2017-12-03 16:51:56 · 3135 阅读 · 0 评论 -
spark(1)-入门spark之scala sbt wordcount实验
1. 版本及配置说明 spark+hadoop环境,spark系列从这里开始吧!2. spark scala wordcount实验原创 2017-12-01 17:13:12 · 995 阅读 · 0 评论 -
1.大数据工具简单分析天猫年底月销量
1.引言在线上交易早已成熟的今天,电商交易量究竟有多少?为了清晰地比较天猫月销量,本文爬取了天猫2017年底、2018年初主流分类商品大量数据,并做了简单的数据统计。整体流程如下:说明:利用scrapy爬取天猫店铺数据约50万条,导入HDFS分布式存储,利用大数据组件spark操作算子分析及sparkSQL查询分析得出处理结果,最后,EChart前端组件将结果以图表形式展现出来。原创 2018-01-26 21:02:50 · 5661 阅读 · 1 评论 -
《数据算法Hadoop/Spark》读书笔记4--topN
本章待完善。 有问题待解答。broadcast()共享全局变量,实验证明,无论是本地还是集群模式,全局变量也是可以的,为什么还要广播呢? broadcast() 本测试提交脚本cd $SPARK_HOME#top10./bin/spark-submit --class cn.whbing.spark.dataalgorithms.chap02.Top...原创 2018-04-20 22:01:32 · 239 阅读 · 0 评论 -
《数据算法Hadoop/Spark》读书笔记3--Top10
1 说明本章知识1 唯一key单分区和多分区测试2 分区汇总 :最终top102.1 汇总方案1:collect到集合2.1 汇总方案2:reduce到集合 若返回要求为JavaPairRDD<K,V>,Tuple2<K,V>即可1 说明本实验测试spark实现top10。思路:先对数据进行mapPartitions...原创 2018-04-19 22:13:21 · 406 阅读 · 0 评论 -
《数据算法Hadoop/Spark》读书笔记2--map与flatMap、mapPartitions对比
本章知识1 map与flatMap对比2 map与mapPartitions对比3 实验3.1 map3.2 flatMap3.3 mapPartitions4 附录本章知识 spark中的共同点为Iterable中的每一项均为RDD map 一RDD对一RDD flatMap 输出为可迭代,一行可迭代成多个数据,...原创 2018-04-19 16:25:33 · 793 阅读 · 0 评论 -
《数据算法Hadoop/Spark》读书笔记1--二次排序
1 说明本章知识1.1 Chapter 01: Secondary Sorting With Spark1.1.1 新建maven工程1.1.2 编辑输入文件1.1.3 二次排序1.1.4 运行结果1.1.5 小结1 说明本文档介绍Spark的二次排序解决方案。本章知识 方法 返回类型/描述 textFile ...原创 2018-04-16 16:27:28 · 592 阅读 · 0 评论