- 博客(11)
- 收藏
- 关注
原创 scala分布式计算
分布式计算应用1.需求-- 一个发送端向多个接收端发送数据,接收端接收数据以后并进行处理,最后将数据返回给发送端,发送端将计算结果收回并打印在控制台。2.需求分析2.1 搭建模型-- 一个发送端连接多个接收端,然后分别进行发送数据,此时存在的问题:-- 当服务器接收到数据以后,计算需要很长一段时间时,如果客户端一直等着服务器返回数据,这是不合理的。2.2 优化1 -- 客户端发送数据给服务端以后,断开连接,等服务器计算数据完成以后,服务器去连接客户端,将计算完成以后的结果返回2
2020-09-10 22:27:19
434
原创 8.Spark内核
Spark内核所谓的内核,就是Spark内部核心原理。一、内核解析的分解Spark应用的提交Spark内部的通信Spark作业的调度任务的执行spark内存管理二、 SparkSubmit--本章节讲述job提交应用以后,环境的准备工作。主要包含以下:1. spark向yarn提交job的过程2. yarn中application、driver、executor、container是如何相互响应提交应用bin/spark-submit \--class org.a
2020-09-10 22:26:41
210
原创 7.SparkStreaming
SparkStreaming一、SparkStreaming 介绍 --0. 几个概念 a、实时:数据处理的延迟,以毫秒级进行相应 b、离线:数据处理的延迟,已小时、天、月、年为级别相应 c、批处理:数据处理的方式,一次处理一批数据 d、流式处理:数据处理的方式,和水流相似,来一条数据处理一条数据,来一点处理一点,一个一个的处理。 --1. 什么是SparkStreaming a、流式数据处理,但是实际情
2020-09-10 22:25:30
250
原创 6.SparkSQL
SparkSQL一、 SparkSQL概述1.1 SparkSQL是什么?Spark SQL是Spark用于"结构化数据"(structured data)处理的Spark模块1.2 Hive 和 SparkSQL解析Hive和SparkSQL之间的关系1. Hive是SQL-on-Hadoop的工具,但由于底层还是基于MR,所以效率低。2. 产生了大量提升SQL-on-Hadoop的工具,表现较为突出的是:DrillImpalaShark3. Shark是Spar
2020-09-10 22:24:32
228
原创 5.Spark֮WordCount
Spark 之 WordCount一、14种wordcount实现方式//数据准备及环境连接: val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("map") val sc = new SparkContext(sparkConf) val rdd1: RDD[String] = sc.makeRDD(List("hadoop scala", "spark spark hel
2020-09-10 22:23:42
174
原创 4. Spark实战项目——电商指标统计
Spark实战— 电商指标统计一、引言 在实战项目中,根据不同的需求进行编程,由于需求不同,核心的计算逻辑会不同,但是其他的一些代码,如获取环境变量、读取文件等等操作是固定。本次我们采用编写框架的模式来完成我们的需求,这样的优势有:代码的扩展性强;减少代码的冗余;将相同的功能进行封装,降低代码的耦合度;将代码进行分层次,代码的逻辑看起来就非常的清晰。采用框架的方式,在企业实际生产环境中是非常有优势的,希望大家能够学以致用。1.1 框架设计原理 框架
2020-09-10 22:22:55
971
1
原创 3.SparkąāģĖ2
Spark编程2接2.Spark架构及编程五、Spark核心编程5.6 累加器5.6.1 累加器基本介绍-- 什么是累加器? 分布式共享只写变量,使用累加器完成数据的累加。 1. 分布式:每一个executor都拥有这个累加器 2. 共享:Driver中的变量原封不动的被executor拥有一份副本 3. 只写:同一个executor中可以对这个变量进行改值,其他的executor不能读取。 -- 累加器用来解决什么问题? 累加器用来把Execut
2020-09-10 22:21:53
1068
原创 2.Spark架构及编程
Spark架构及编程接Spark环境的安装四、Spark运行框架4.1 运行框架Spark框架可以理解三个部分组成第一部分: Driver + Executor --> 任务执行和调度第二部分: Master + Worker --> Saprk自身的资源调度框架第三部分: Cluster Manager --> 集群管理,中间件Driver + Executor-- Driver:驱动器 1. 用于执行Spark任务中的main()
2020-09-10 22:21:19
369
原创 1.Spark环境的安装
Spark环境的安装一、 Spark简介1.1 Spark是什么是一种基于内存的快速、通用、可拓展的大数据分析计算引擎。1.2 Hadoop 和 Spark关联hadoop :2013年10月发布2.X (Yarn)版本;spark : 2013年6月,Spark成为了Apache基金会下的项目。Spark可以理解为hadoop MR的升级版。1.2.1 hadoop发展历史-- 1.X 版本 --2011年发布从架构的角度存在很多的问题1. Namenode 是单
2020-09-10 22:20:38
187
原创 Git
Git一、简介1. 是什么最先进的版本控制系统Bitkeeper 是最初的版本控制器, 是商业用途, 后来在开放linux时被破解git以行为单位, 进行检测, 控制svn(也是一个版本控制系统) 为集中式依赖中央仓库, 一旦中央仓库出现问题, 风险太大git为分布式每个人都是一个节点也拥有中央仓库, 方便合并2. 作用版本还原分支管理 (很快, 只需移动指针)协同开发 (自动合并, 手动解决冲突)版本记录历史追踪权限管理3. 设置Git账
2020-09-10 22:11:19
217
原创 HashMap(Java)
HashMap(Java)一、JDK 8 中实现的原理HashMap存储方式是Map (存储Key-Value对的接口) 的实现类无序 (根据hashCode()来计算, 并得出存放在数组中的位置)不重复 (根据类中的HashCode(), 和equals()方法进行判断)未使用 synchronized(同步锁), 线程非安全.HashMap使用的结构数组 (底层)...
2020-04-09 13:22:01
117
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人