
Spark
文章平均质量分 94
一米八多的瑞兹
每周一更,篇数不定
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
综合案例—Spark实时交易数据统计
概要通过Spark Streaming技术开发商品实时交易数据统计模块案例,该系统主要功能是在前端页面以动态报表展示后端不断增长的数据,这也是所谓的看板平台。通过学习并开发看板平台,从而帮助读者理解大数据实时计算架构的开发流程,并能够掌握Spark实时计算框架Spark Streaming在实际应用中的使用方法。系统概述系统背景介绍双十一是每年11月11日的电商促销活动,2018年最终24小时总成交额为2135亿。现场庆典中,成交额在大屏幕中实时刷新展示,这就用到了数据可视化技术,数据可视化是借助于原创 2021-05-17 19:57:42 · 6497 阅读 · 10 评论 -
Spark MLlib 机器学习算法库
✎ 学习目标了解什么是机器学习及Spark MLlib的基本使用方式掌握机器学习的工作流程了解电影推荐系统的构建流程理解MLlib的数据类型概要MLlib是Spark提供的处理机器学习方面的功能库,该库包含了许多机器学习算法,开发者可以不需要深入了解机器学习算法就能开发出相关程序。初识机器学习什么是实时计算机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使原创 2021-05-17 19:44:36 · 3640 阅读 · 7 评论 -
Spark Streaming实时计算框架
Spark Streaming实时计算框架✎ 学习目标1.了解什么是实时计算2.掌握DStream的转换、窗口、输出操作3.理解Spark Streaming工作原理4.掌握Spark Streaming和Kafka整合概要近年来,在Web应用、网络监控、传感监测、电信金融、生产制造等领域,增强了对数据实时处理的需求,而Spark中的Spark Streaming实时计算框架就是为实现对数据实时处理的需求而设计。在电子商务中,淘宝、京东网站从用户点击的行为和浏览的历史记录中发现用户的购买意图和原创 2021-04-19 15:23:36 · 1435 阅读 · 1 评论 -
Kafka分布式发布订阅消息系统
Kafka分布式发布订阅消息系统✎ 学习目标1.了解Kafka Streams API的使用2.掌握基本的消息传递模式3.理解Kafka工作原理4.掌握Kafka集群部署和基本操作Kafka是一个高吞吐量的分布式发布订阅消息系统,它在实时计算系统中有着非常强大的功能。通常情况下,我们使用Kafka构建系统或应用程序之间的数据管道,用来转换或响应实时数据,使数据能够及时的进行业务计算,得出相应结果。Kafka概述消息传递模式简介一个消息系统负责将数据从一个应用程序传递到另外一个应用程序中,应原创 2021-03-18 21:11:07 · 1633 阅读 · 0 评论 -
HBase分布式数据库
✎ 学习目标理解HBase的数据类型和架构掌握HBase的集群部署理解HBase读写数据流程掌握HBase与Hive的整合Spark计算框架是如何在分布式环境下对数据处理后的结果进行随机的、实时的存储呢?HBase数据库正是为了解决这种问题而应用而生。HBase数据库不同于一般的数据库,如MySQL数据库和Oracle数据库是基于行进行数据的存储,而HBase则是基于列进行数据的存储,这样的话,HBase就可以随着存储数据的不断增加而实时动态的增加列,从而满足Spark计算框架可以实时的将处理原创 2021-03-14 20:34:18 · 881 阅读 · 0 评论 -
Spark SQL结构化数据文件处理
✎ 学习目标理解Spark SQL基本概念掌握DataFrameDataset的创建方式理解Spark SQL的架构掌握RDD转换DataFrame的方式及Spark SQL操作数据源在很多情况下,开发工程师并不了解Scala语言,也不了解Spark常用API,但又非常想要使用Spark框架提供的强大的数据分析能力。Spark的开发工程师们考虑到了这个问题,利用SQL语言的语法简洁、学习门槛低以及在编程语言普及程度和流行程度高等诸多优势,从而开发了Spark SQL模块,通过Spark SQL原创 2021-03-12 18:51:20 · 1430 阅读 · 0 评论 -
Spark RDD弹性分布式数据集
✎ 学习目标理解RDD的五大特征和Spark的任务调度掌握RDD的创建方式了解RDD的依赖关系以及持久化和容错机制掌握RDD的转换算子和行动算子操作传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。RDD是Spark提供的最重要的抽象概念,我们可以将RDD理解为一个分布式存储在集群中的大型数据集合,不同RDD之间可以通过转换操作形成依赖关系实现管道原创 2021-03-12 13:48:48 · 330 阅读 · 0 评论 -
Spark基础
✎ 学习目标1.了解Spark的特点2.掌握Spark集群的搭建和配置及架构3.理解Spark作业提交的工作原理4.掌握Spark HA集群的搭建和配置Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室,它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快,而且内置了丰富的API,使得我们能够更加容易编写程序。Spark的概述Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。Spark生原创 2021-03-11 13:46:25 · 2482 阅读 · 5 评论 -
Scala语言基础
Scala语言基础✎ 学习目标了解Scala的特点掌握Scala和IDEA的下载安装熟悉Scala面向对象的特性掌握Scala的基础语法、数据结构、模式匹配与样例类Spark是专为大规模数据处理而设计的快速通用的计算引擎,它是由Scala语言开发实现的,关于大数据技术,本身就是计算数据,而Scala既有面向对象组织项目工程的能力,又具备计算数据的功能,同时Spark和Scala的紧密集成,本书将采用Scala语言开发Spark程序,所以学好Scala将有助于我们更好的掌握Spark框架。S原创 2021-03-08 13:41:15 · 756 阅读 · 0 评论