
Spark阶段
文章平均质量分 50
包含理论阶段,实战阶段,环境搭建阶段
中长跑路上crush
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark写入kafka(批数据和流式)
【代码】Spark写入kafka(批数据和流式)原创 2024-01-21 10:48:27 · 1612 阅读 · 0 评论 -
消费数据积压
生产者生产数据的速度超过消费者处理数据的速度,会造成kafka中积压大量未处理的数据。原创 2024-01-20 20:20:38 · 629 阅读 · 0 评论 -
Spark读取kafka(流式和批数据)
【代码】Spark读取kafka(流式和批数据)原创 2024-01-20 11:45:17 · 1406 阅读 · 0 评论 -
StructuredStreaming输出模式和结果输出文件中
update 支持聚合,支持select单纯的查询 不支持聚合后排序,每次输出时,只展示最新聚合后的结果。#complete 必须聚合,支持聚合后排序 每次输出数据都会将原来的数据一起输出。#append 不支持排序,不支持聚合, 每次输出数据都是最新的数据内容。#format指定输出位置 console:控制台。也就是说不支持聚合结果输出到文件当中。原创 2024-01-19 21:41:53 · 515 阅读 · 0 评论 -
Spark流式读取文件数据
df_json = ss.readStream.json(‘hdfs://node1:8020/目录’)df_csv = ss.readStream.csv(‘hdfs://node1:8020/目录’)场景:某天你上传一个文件,发现它不做任何读取和处理,你需要考虑,这个文件名以前是否处理过了。文件的读取方式在实际开发中用的比较少,每生产一条数据,就要生成一个文件(你修改了文件一的内容,不修改文件名,你再次上传会发现它不去读取。但是你不修改文件内容,修改文件名,你再上传会发现它还会去读取。原创 2024-01-19 17:21:46 · 659 阅读 · 0 评论 -
spark-udf函数
from pyspark.sql import SparkSessionfrom pyspark.sql.types import *ss = SparkSession.builder.getOrCreate()df_csv = ss.read.csv(‘hdfs://node1:8020/user/hive/warehouse/data/stu.csv’,schema=‘name string,age int,gender string,phone string,email string,city s原创 2024-01-17 15:56:18 · 1181 阅读 · 0 评论 -
Kafka详解
英文名:Message Queue,经常缩写为MQ。从字面上来理解,消息队列是用来存储传递消息的。原创 2024-01-16 08:22:04 · 663 阅读 · 0 评论 -
SparkSQL和Hive语法差异
rand()nullvoidCTAS建表。原创 2024-01-15 09:23:55 · 1539 阅读 · 0 评论 -
Kafka
多个broker会选取产生一个控制器, 类似zk中 leader角色。kafka集群运行后,每台服务器上的kafka称为一个broker节点。分区(分片) Partition。副本 Replication。处理消费者和生成者的请求。偏移量(offset)原创 2024-01-14 17:39:34 · 573 阅读 · 0 评论 -
SPARK--cache(缓存)和checkpoint检查点机制
也是将中间rdd数据存储起来,但是存储的位置实时分布式存储系统,可以进行永久保存,程序结束不会释放。缓存是将数据存储在内存或者磁盘上,缓存的特点时,计算结束,缓存自动清空。如果需要删除就在hdfs上删除对应的目录文件。原创 2024-01-13 07:48:29 · 781 阅读 · 0 评论 -
Spark算子(RDD)超细致讲解
map,flatmap,sortBykey, reduceBykey,groupBykey,Mapvalues,filter,distinct,sortBy,groupBy共10个转换算子。原创 2024-01-12 15:54:32 · 1710 阅读 · 0 评论 -
Spark-RDD详解
rdd中封装了各种算子方便进行计算,主要分为两类转化算子 对rdd数据进行转化计算得到新的rdd,定义了一个线程任务action执行算子 触发计算任务,让计算任务进行执行,得到结果触发线程执行的。原创 2024-01-12 09:40:49 · 1888 阅读 · 0 评论 -
Spark基础
建库一定要指定字符集,错了好多次了。原创 2024-01-11 15:28:22 · 638 阅读 · 0 评论 -
Spark理论知识—1
(base)node1: pyspark --master spark://node1:7077,node2:7077 但是你前提得开启zk服务,并在另一台服务器开启备用服务 高可用模式。进入的是本地模式 在node1上输入就使用node1的资源,在node2上输入就使用node2的资源[代码测试用]sftp服务,将本地目录和远程服务器上的目录做映射,将本地代码文件同步到远程服务器上。如何只启动spark计算引擎,而不启动spark自带的资源调度服务。注意这里是all.sh是把所有的都启动了。原创 2024-01-10 10:37:05 · 562 阅读 · 0 评论