
Spark编程基础
文章平均质量分 96
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。形成一个高速发展应用广泛的生态系统。
Francek Chen
征途漫漫,惟有奋斗!优快云大数据领域优质创作者,2024博客之星TOP47,阿里云社区专家博主,华为云云享专家。热爱学习大数据与人工智能的相关知识,专注Hadoop、Spark实战,打造了《大数据技术基础》《Python机器学习》等热门专栏,助力行业技术落地。多篇热文登榜TOP,开源项目解析广受好评。以代码为笔,记录成长;以博客为媒,传递价值。关注我,一起畅游于数据变化的世界中,发现更多精彩~~
展开
-
Spark编程实验六:Spark机器学习库MLlib编程
通过Spark机器学习库MLlib编程实验掌握基本的MLLib编程方法;掌握用MLLib解决一些常见的数据分析问题,包括数据导入、成分分析和分类和预测等。原创 2024-02-13 11:21:16 · 3304 阅读 · 1 评论 -
Spark编程实验五:Spark Structured Streaming编程
通过实验掌握Structured Streaming的基本编程方法;掌握日志分析的常规操作,包括拆分日志方法和分析场景。原创 2024-02-12 18:18:54 · 4577 阅读 · 2 评论 -
Spark MLlib
MLlib(Machine Learning Library)是Spark的机器学习库,旨在简化机器学习的工程实践,并能够方便地扩展到更大规模的数据。本篇文章介绍Spark MLlib机器学习,包括用于特征预处理的数理统计方法。原创 2024-02-08 16:20:45 · 2276 阅读 · 0 评论 -
Structured Streaming
Structured Streaming是一种基于Spark SQL引擎构建的、可扩展且容错性高的流处理引擎。本文介绍Structured Streaming的基本概念、编写Structured Streaming程序的基本步骤和输入输出操作。原创 2024-02-06 14:33:31 · 2167 阅读 · 0 评论 -
【数据采集与预处理】流数据采集工具Flume
Flume是一种分布式、具有高可靠和高可用性的数据采集系统,可从多个不同类型、不同来源的数据流汇集到集中式数据存储系统中。本篇文章介绍Flume架构、安装配置及其Spark应用。原创 2024-01-05 23:51:22 · 3147 阅读 · 1 评论 -
大数据编程期末大作业2023
本篇文章讲解Spark编程基础这门课程的期末大作业,主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。原创 2023-12-31 13:49:20 · 3753 阅读 · 0 评论 -
Spark编程实验四:Spark Streaming编程
通过本实验掌握Spark Streaming的基本编程方法;熟悉利用Spark Streaming处理来自不同数据源的数据。熟悉DStream的各种转换操作。熟悉把DStream的数据输出保存到文本文件或MySQL数据库中。原创 2023-12-30 11:46:26 · 4441 阅读 · 1 评论 -
Spark Streaming
Spark Streaming是构建在Spark上的流计算框架,它扩展了Spark处理大规模流式数据的能力,使得Spark可以同时支持批处理与流处理。原创 2023-12-29 20:45:45 · 1905 阅读 · 1 评论 -
【数据采集与预处理】数据接入工具Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。本文主要介绍Kafka以及安装配置。原创 2023-12-28 20:59:38 · 3510 阅读 · 0 评论 -
Spark编程实验三:Spark SQL编程
本实验的目的是掌握Spark SQL的基本编程方法,熟悉RDD到DataFrame的转化方法,熟悉利用Spark SQL管理来自不同数据源的数据。原创 2023-12-24 15:45:11 · 5156 阅读 · 3 评论 -
Spark SQL
Spark SQL是Spark中用于结构化数据处理的组件,它提供了一种通用的访问多种数据源的方式,可以访问的数据源包括Hive、Avro、Parquet、ORC、JSON和JDBC等。原创 2023-12-23 22:57:07 · 3025 阅读 · 3 评论 -
在Linux系统中安装MySQL数据库
MySQL是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,以提高灵活性。本篇文章主要讲解如何在Linux系统中安装MySQL。原创 2023-12-22 19:16:47 · 1794 阅读 · 0 评论 -
Spark编程实验二:RDD编程初级实践
本实验的目的是掌握Spark的RDD基本操作及键值对操作,熟悉使用RDD编程解决实际具体问题的方法。原创 2023-12-18 12:53:19 · 5694 阅读 · 2 评论 -
RDD编程
RDD是Spark的核心概念,它是一个只读的、可分区的分布式数据集,这个数据集可全部或部分缓存在内存中。本篇文章主要讲解RDD编程基础操作和通过RDD读写数据内容。原创 2023-12-17 17:49:24 · 1774 阅读 · 2 评论 -
大数据存储技术(3)—— HBase分布式数据库
HBase是Apache的Hadoop项目的子项目,是一个分布式的、面向列的开源数据库。本篇文章介绍HBase及其安装配置。原创 2023-12-16 21:54:10 · 2992 阅读 · 4 评论 -
Spark编程实验一:Spark和Hadoop的安装使用
本实验主要目的是熟悉HDFS的基本使用方法,掌握使用Spark访问本地文件和HDFS文件的方法。原创 2023-12-15 21:59:46 · 3720 阅读 · 1 评论 -
Spark环境搭建和使用方法
本文讲解如何在Linux系统中安装Spark并配置Spark环境,以及Spark的基本使用方法。原创 2023-12-14 13:28:32 · 9228 阅读 · 7 评论 -
Spark分布式内存计算框架
Spark是一种基于内存的、用以实现高效集群计算的平台。Spark有着自己的生态系统,但同时兼容HDFS、Hive等分布式存储系统,可以完美融入Hadoop的生态圈中,代替MapReduce去执行更高的分布式计算。原创 2023-12-11 15:29:26 · 3464 阅读 · 1 评论 -
大数据存储技术(1)—— Hadoop简介及安装配置
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。本文介绍Hadoop及其集群的搭建。原创 2023-12-06 22:34:18 · 18506 阅读 · 32 评论 -
大数据软件基础(3) —— 在VMware上安装Linux集群
CentOS(Community Enterprise Operating System,中文意思是社区企业操作系统)是Linux发行版之一,是免费的、开源的、可以重新分发的开源操作系统。自2004年3月以来,CentOS Linux一直是社区驱动的开源项目,旨在与RHEL在功能上兼容。本文详细讲解如何安装CentOS Linux虚拟机。原创 2023-12-05 18:14:50 · 2188 阅读 · 0 评论