
Spark实验
文章平均质量分 64
pblh123
这个作者很懒,什么都没留下…
展开
-
2023_Spark_实验十五:SparkSQL进阶操作
本实验通过实践掌握Spark SQL中的复杂查询,如子查询、窗口函数和联接操作,同时学习性能优化策略,包括数据分区、缓存机制和查询优化。学员实现了一个ETL数据处理流程,从日志和交易数据中提取信息,清洗数据并进行复杂查询,最终将处理结果加载到目标存储中。这些技能为后续的大数据分析和处理奠定了基础。原创 2024-11-14 23:46:33 · 1452 阅读 · 0 评论 -
2023_Spark_实验十一:RDD基础算子操作
Spark3.4.1, Scala 2.13 RDD基础练习,使用Spark-shell练习,使用IDEA练习原创 2024-09-26 23:15:30 · 1783 阅读 · 0 评论 -
2023_Spark_实验十:Centos_Spark Local模式部署
参考这篇博客:【Centos8_配置单节点伪分布式Spark环境】_centos8伪分布式环境搭建-优快云博客原创 2024-09-26 20:58:53 · 1320 阅读 · 0 评论 -
2023_Spark_实验九:编写WordCount程序(Scala版)
Scala版本的wordcount原创 2024-09-26 20:53:41 · 1395 阅读 · 0 评论 -
2023_Spark_实验八:Scala高级特性实验
Scala的高级特征,泛型类、泛型函数、隐式转换、隐式类原创 2024-09-26 20:35:48 · 393 阅读 · 0 评论 -
2023_Spark_实验七:Scala函数式编程部分演示
Scala函数式编程初识,函数定义,匿名函数,柯里化,常用的高阶函数原创 2024-09-24 15:54:24 · 354 阅读 · 0 评论 -
2023_Spark_实验三十三:配置Standalone模式Spark3.4.2集群
基于Centos7,部署Spark3.4.2组件,实现Standalone模式集群部署。并通过自带的样例代码pi计算验证集群是否ok。原创 2023-12-25 13:05:01 · 1454 阅读 · 0 评论 -
2023_Spark_实验三十二:消费Kafka数据并保存到MySQL中
使用shell模拟实时数据,flume采集实时数据到kafka中,通过scala开发spark代码实现消费kafka数据存储到MySQL中原创 2023-12-20 22:24:17 · 2389 阅读 · 0 评论 -
2023_Spark_实验三十一:开发Kafka偏移量的公共方法
基于scala,开发代码,将消费者组的offset信息存入mysql数据库原创 2023-12-20 15:33:07 · 1483 阅读 · 0 评论 -
2023_Spark_实验三十:测试Flume到Kafka
flume监控指定文件,shell+crontab模拟实时数据,kafka存储flume生产者的数据,使用kafkatools查看kafka主题原创 2023-12-19 13:47:17 · 2501 阅读 · 0 评论 -
2023_Spark_实验二十九:Flume配置KafkaSink
flume1.9.0 配置source为exec读取shell脚本模拟产生的实时数据,配置Sink为kafkaSink,配置channel为memoryChannel原创 2023-12-18 16:18:10 · 2984 阅读 · 0 评论 -
2023_Spark_实验二十八:Flume部署及配置
在集群中单节点部署flume,并通过一个简单案例掌握flume使用方法。成功实现通过flume采集网络字节流数据。原创 2023-12-18 15:04:33 · 2059 阅读 · 0 评论 -
2023_Spark_实验二十七:Linux中Crontab(定时任务)命令详解及使用教程
通过crontab+shell,来模拟产生实时点击流数据,实现秒级数据产生,得到每5秒一条记录数据。原创 2023-12-06 18:06:44 · 3739 阅读 · 0 评论 -
2023_Spark_实验二十六:编写Shell模拟生成点击实时数据
通过shell开发脚本,模拟产生实时的实验数据,shell函数自定义及调用原创 2023-12-06 17:16:14 · 1787 阅读 · 0 评论 -
2023_Spark_实验二十五:SparkStreaming读取Kafka数据源:使用Direct方式
通过终端模拟输入将数据输入到kafka集群,使用scala开发消费者消费kafka订阅的主题数据,实现词频统计。原创 2023-12-01 23:36:10 · 3228 阅读 · 2 评论 -
2023_Spark_实验二十四:Kafka集群环境搭建
KafKa集群环境的搭建,zookeeper集群搭建,Kafka部署验证,2023原创 2023-12-01 14:32:11 · 2346 阅读 · 2 评论 -
2023_Spark_实验二十三:Kafka的安装与基本操作
Kafka单节点模式部署,并测试原创 2023-11-30 23:53:07 · 2806 阅读 · 2 评论 -
2023_Spark_实验二十一:Zookeeper单机安装与配置
Zookeeper单机模式linux部署原创 2023-11-27 14:46:31 · 2823 阅读 · 0 评论 -
2023_Spark_实验二十:SparkStreaming累加计算单词频率
Spark Streaming 累加器案例原创 2023-10-16 13:09:40 · 1597 阅读 · 0 评论 -
2023_Spark_实验十九:SparkStreaming入门案例
Spark Streaming networdcount 案例,netcat工具,maven管理项目依赖,原创 2023-10-16 13:03:29 · 1910 阅读 · 0 评论 -
2023_Spark_实验十八:安装FinalShell
安装配置Finalshell原创 2023-10-16 12:52:19 · 1327 阅读 · 0 评论 -
2023_Spark_实验十七:导入招聘大数据(项目)
基于Spark SQL读取csv文件,并将获得的DataFrame数据存入MySQL数据库原创 2023-10-16 11:07:49 · 2576 阅读 · 0 评论 -
2023_Spark_实验十六:编写LoggerLevel方法及getLocalSparkSession方法
掌握基于IDEA开发Spark项目的配置,依赖管理,编写LoggerLevel方法及getLocalSparkSession方法原创 2023-10-16 10:59:05 · 2081 阅读 · 0 评论 -
2023_Spark_实验十四:SparkSQL入门操作
Spark SQL 基础操作,读取文件,注册临时表,Spark SQL基础语法,查看执行计划原创 2023-10-16 10:34:49 · 2069 阅读 · 0 评论 -
2023_Spark_实验十三:Spark RDD 求员工工资总额
Spark RDD,实现员工工资待遇排序。reduceByKey,sortByKey原创 2023-10-16 10:15:05 · 1778 阅读 · 0 评论 -
2023_Spark_实验十二:Spark高级算子使用
Spark高级算子,Scala开发,idea原创 2023-09-20 16:30:26 · 2259 阅读 · 0 评论 -
2023_Spark_实验六:Scala面向对象部分演示(二)(IDEA开发)
Idea, Scala面向对象部分演示(二), apply, 继承、重写,匿名函数,抽象函数,特质,包的使用,文件访问等。原创 2023-09-01 15:18:08 · 2218 阅读 · 0 评论 -
2023_Spark_实验五:Scala面向对象部分演示(一)(IDEA开发)
基于Idea,Scala面向对象部分演示(一),讲解面向对象中的三大特征:封装、继承、多态。类的定义。原创 2023-09-01 15:09:50 · 2120 阅读 · 0 评论 -
2023_Spark_实验四:SCALA基础
Scala基础,通过Scala交互命名学习Scala基础语法,学习数据常用类型,变量声明,Scala函数与方法,条件表达式,循环,函数参数类型,数组,元组,映射等基础知识。原创 2023-09-01 15:01:52 · 2837 阅读 · 0 评论 -
2023_Spark_实验三:基于IDEA开发Scala例子
window环境中,基于IDEA开发工具,创建一个scala项目,完成scala的hello代码。原创 2023-08-30 18:05:24 · 7359 阅读 · 2 评论 -
2023_Spark_实验二:IDEA安装及配置
windows 安装idea,并配置scala插件原创 2023-08-30 17:12:55 · 4759 阅读 · 0 评论 -
2023_Spark_实验一:Windows中基础环境安装
windows, Java, Scala部署与验证。原创 2023-08-30 17:06:52 · 5316 阅读 · 0 评论