文章目录
1. 关系梳理
一个Account下可以创建多个EMR Studio,一个EMR Studio下又可以创建多个Workspace,EMR Studio和Workspace均拥有独立公网地址,两者已经类似于SaaS服务。
EMR Studio的核心配置是网络和身份认证(Authentication),可以简单地说:一个EMR Studio对应一个VPC + 一种身份认证方式,从这个角度上看,一个空的EMR Studio(没有任何Workspace)相当于一个“门户”(一个Studio会有独立的公网DNS!),这个“门户”对内接通了网络,对外提供登录入口(身份认证),在这样一个统一的环境里,建立的是一个一个的Workspace;Workspace可视作一个独立的Jupyter Server,它的核心配置是attach一个EMR集群(EMR on EC2 or EMR on EKS)。一个Workspace相当于一个EMR集群的Gateway或Client。
2. 网络配置
由于EMR Studio需要联通到EMR集群,所以网络配置必须正确。在官方文档中,对网络部分有这样几处需要注意的地方: