220713,PySpark应用程序开发,

Presto和Spark访问Hive中的数据表,进行数据处理

Hive中有哪些表、表对应的HDFS地址

Presto和Spark会解析Hive元数据吗

HiveServer2:Hive服务端,负责接收SQL、解析SQL转换成Hadoop任务

元数据是存储在数据库中

Metastore:元数据管理服务,负责管理元数据,实现元数据共享,接收所有读写元数据请求

1-共享元数据

2-解耦合保证元数据安全

HiveServer2:端口:10000

Metastore:端口:9083

 RDD像HDFS中文件

一个RDD对应多个物理上的分区

 一个文件对应多个物理上的Block

5个rdd,

spark-submit

Active,Standby

ZK的主节点故障,允许从其他从节点中选举一个新的主节点

zk中,Leader故障,Follower选举成为新的Leader 

 

MapTask进程、ReduceTask进程

软连接==快捷方式

 

vim中,i or o

vim命令行60直接跳到

 markdown:用于复制内容

PDF:用于看笔记

 8088

MapReduce:JobHistoryServer  19888端口

用于记录运行过所有MR的程序的日志

        Spark:HistoryServer

sbin集群管理,

所有日志文件名中:一定会包含进程名字

哪个进程有问题,就看哪个进程日志文件

Spark:Master:8080  集群监控,

JobhistoryServer:19888

HistoryServer:18080

执行完了,端口4040释放,

1个Driver:驱动进程

任何一个Spark程序都由两种进程组成:Driver-驱动进程和Executor-计算进程

Driver负责解析生成、调度分配Task

Driver高度类似于YARN中的APPMaster

APPMaster + MapTask/ReduceTask

Driver + Executor

MapTask/ReduceTask==container==Executor

集群模式:HDFS

曲线==shuffle 

改端口,一定修改配置文件,配置文件中一定会有

Task会优先分配到数据所在机器运行

 

 后面不用高可用ha,

先到先得

程序运行需要用到JVM、Python解释器、Hadoop命令

 注意解压是否嵌套???

 

 

任何一个Spark程序都由:Driver+Executor

Executor:执行Task

怎么看源码

ctrl+鼠标左点击,

多敲两三天,再用模板,

括号(可注释)==加反斜杠,

spark-submit

localost:4040  Windows下

 18080  linux下,

如果存在会报错:Output Directory already exists

 注意:输出目录不能提前存在

参数可以提供代码的灵活性

阶段是全局编号,

本地模式:只启动1个进程来运行所有Task

Spark程序:Application

每个Application有一个监控端口4040开始

每个Application中可以包含多个job

 

Spark是基于内存计算,为了避免资源浪费

同一个阶段中所有操作直接在内存中完成

熟练编写Wordcount

review

 preview

 

 

 

 

 

 

 

已看完::::::::::

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值