kaaaaaaki-优快云博客

原创 scala分布式计算

分布式计算应用1.需求-- 一个发送端向多个接收端发送数据，接收端接收数据以后并进行处理，最后将数据返回给发送端，发送端将计算结果收回并打印在控制台。2.需求分析2.1 搭建模型-- 一个发送端连接多个接收端，然后分别进行发送数据，此时存在的问题：-- 当服务器接收到数据以后，计算需要很长一段时间时，如果客户端一直等着服务器返回数据，这是不合理的。2.2 优化1 -- 客户端发送数据给服务端以后，断开连接，等服务器计算数据完成以后，服务器去连接客户端，将计算完成以后的结果返回2

2020-09-10 22:27:19 434

原创 8.Spark内核

Spark内核所谓的内核，就是Spark内部核心原理。一、内核解析的分解Spark应用的提交Spark内部的通信Spark作业的调度任务的执行spark内存管理二、 SparkSubmit--本章节讲述job提交应用以后，环境的准备工作。主要包含以下：1. spark向yarn提交job的过程2. yarn中application、driver、executor、container是如何相互响应提交应用bin/spark-submit \--class org.a

2020-09-10 22:26:41 210

原创 7.SparkStreaming

SparkStreaming一、SparkStreaming 介绍 --0. 几个概念 a、实时：数据处理的延迟，以毫秒级进行相应 b、离线：数据处理的延迟，已小时、天、月、年为级别相应 c、批处理：数据处理的方式，一次处理一批数据 d、流式处理：数据处理的方式，和水流相似，来一条数据处理一条数据，来一点处理一点，一个一个的处理。 --1. 什么是SparkStreaming a、流式数据处理，但是实际情

2020-09-10 22:25:30 250

原创 6.SparkSQL

SparkSQL一、 SparkSQL概述1.1 SparkSQL是什么？Spark SQL是Spark用于"结构化数据"(structured data)处理的Spark模块1.2 Hive 和 SparkSQL解析Hive和SparkSQL之间的关系1. Hive是SQL-on-Hadoop的工具，但由于底层还是基于MR，所以效率低。2. 产生了大量提升SQL-on-Hadoop的工具，表现较为突出的是：DrillImpalaShark3. Shark是Spar

2020-09-10 22:24:32 228

原创 5.Spark֮WordCount

Spark 之 WordCount一、14种wordcount实现方式//数据准备及环境连接： val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("map") val sc = new SparkContext(sparkConf) val rdd1: RDD[String] = sc.makeRDD(List("hadoop scala", "spark spark hel

2020-09-10 22:23:42 174

原创 4. Spark实战项目——电商指标统计

Spark实战— 电商指标统计一、引言在实战项目中，根据不同的需求进行编程，由于需求不同，核心的计算逻辑会不同，但是其他的一些代码，如获取环境变量、读取文件等等操作是固定。本次我们采用编写框架的模式来完成我们的需求，这样的优势有：代码的扩展性强；减少代码的冗余；将相同的功能进行封装，降低代码的耦合度；将代码进行分层次，代码的逻辑看起来就非常的清晰。采用框架的方式，在企业实际生产环境中是非常有优势的，希望大家能够学以致用。1.1 框架设计原理框架

2020-09-10 22:22:55 971 1

原创 3.SparkąāģĖ2

Spark编程2接2.Spark架构及编程五、Spark核心编程5.6 累加器5.6.1 累加器基本介绍-- 什么是累加器？分布式共享只写变量，使用累加器完成数据的累加。 1. 分布式：每一个executor都拥有这个累加器 2. 共享：Driver中的变量原封不动的被executor拥有一份副本 3. 只写：同一个executor中可以对这个变量进行改值，其他的executor不能读取。 -- 累加器用来解决什么问题？累加器用来把Execut

2020-09-10 22:21:53 1068

原创 2.Spark架构及编程

Spark架构及编程接Spark环境的安装四、Spark运行框架4.1 运行框架Spark框架可以理解三个部分组成第一部分： Driver + Executor --> 任务执行和调度第二部分： Master + Worker --> Saprk自身的资源调度框架第三部分： Cluster Manager --> 集群管理，中间件Driver + Executor-- Driver：驱动器 1. 用于执行Spark任务中的main()

2020-09-10 22:21:19 369

原创 1.Spark环境的安装

Spark环境的安装一、 Spark简介1.1 Spark是什么是一种基于内存的快速、通用、可拓展的大数据分析计算引擎。1.2 Hadoop 和 Spark关联hadoop ：2013年10月发布2.X (Yarn)版本；spark ： 2013年6月，Spark成为了Apache基金会下的项目。Spark可以理解为hadoop MR的升级版。1.2.1 hadoop发展历史-- 1.X 版本 --2011年发布从架构的角度存在很多的问题1. Namenode 是单

2020-09-10 22:20:38 187

原创 Git

Git一、简介1. 是什么最先进的版本控制系统Bitkeeper 是最初的版本控制器, 是商业用途, 后来在开放linux时被破解git以行为单位, 进行检测, 控制svn(也是一个版本控制系统) 为集中式依赖中央仓库, 一旦中央仓库出现问题, 风险太大git为分布式每个人都是一个节点也拥有中央仓库, 方便合并2. 作用版本还原分支管理 (很快, 只需移动指针)协同开发 (自动合并, 手动解决冲突)版本记录历史追踪权限管理3. 设置Git账

2020-09-10 22:11:19 217

原创 HashMap(Java)

HashMap(Java)一、JDK 8 中实现的原理HashMap存储方式是Map (存储Key-Value对的接口) 的实现类无序 (根据hashCode()来计算, 并得出存放在数组中的位置)不重复 (根据类中的HashCode(), 和equals()方法进行判断)未使用 synchronized(同步锁), 线程非安全.HashMap使用的结构数组 (底层)...

2020-04-09 13:22:01 117

kakkkkkkki的博客