220713，PySpark应用程序开发，

啊六六六

已于 2022-07-15 11:01:52 修改

阅读量354

点赞数

分类专栏： Python 文章标签：大数据 hadoop hive

于 2022-07-15 01:35:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_48941160/article/details/125777189

版权

Python 专栏收录该内容

175 篇文章

订阅专栏

Presto和Spark访问Hive中的数据表，进行数据处理

Hive中有哪些表、表对应的HDFS地址

Presto和Spark会解析Hive元数据吗

HiveServer2：Hive服务端，负责接收SQL、解析SQL转换成Hadoop任务

元数据是存储在数据库中

Metastore：元数据管理服务，负责管理元数据，实现元数据共享，接收所有读写元数据请求

1-共享元数据

2-解耦合保证元数据安全

HiveServer2：端口：10000

Metastore：端口：9083

RDD像HDFS中文件

一个RDD对应多个物理上的分区

一个文件对应多个物理上的Block

5个rdd，

spark-submit

Active，Standby

ZK的主节点故障，允许从其他从节点中选举一个新的主节点

zk中，Leader故障，Follower选举成为新的Leader

MapTask进程、ReduceTask进程

软连接==快捷方式

vim中，i or o

vim命令行60直接跳到

markdown：用于复制内容

PDF：用于看笔记

8088

MapReduce：JobHistoryServer 19888端口

用于记录运行过所有MR的程序的日志

Spark：HistoryServer

sbin集群管理，

所有日志文件名中：一定会包含进程名字

哪个进程有问题，就看哪个进程日志文件

Spark：Master：8080 集群监控，

JobhistoryServer:19888

HistoryServer：18080

执行完了，端口4040释放，

1个Driver：驱动进程

任何一个Spark程序都由两种进程组成：Driver-驱动进程和Executor-计算进程

Driver负责解析生成、调度分配Task

Driver高度类似于YARN中的APPMaster

APPMaster + MapTask/ReduceTask

Driver + Executor

MapTask/ReduceTask==container==Executor

集群模式：HDFS

曲线==shuffle

改端口，一定修改配置文件，配置文件中一定会有

Task会优先分配到数据所在机器运行

后面不用高可用ha，

先到先得

程序运行需要用到JVM、Python解释器、Hadoop命令

注意解压是否嵌套？？？

任何一个Spark程序都由：Driver+Executor

Executor：执行Task

怎么看源码

ctrl+鼠标左点击，

多敲两三天，再用模板，

括号（可注释）==加反斜杠，

spark-submit

localost:4040 Windows下

18080 linux下，

如果存在会报错：Output Directory already exists

注意：输出目录不能提前存在

参数可以提供代码的灵活性

阶段是全局编号，

本地模式：只启动1个进程来运行所有Task

Spark程序：Application

每个Application有一个监控端口4040开始

每个Application中可以包含多个job

Spark是基于内存计算，为了避免资源浪费

同一个阶段中所有操作直接在内存中完成

熟练编写Wordcount

review

preview

已看完：：：：：：：：：：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。