- 博客(3)
- 收藏
- 关注
原创 在 Amazon Glue Job 中使用 Python 私有仓库的技术实践
本文介绍了在Amazon Glue中使用私有Python包仓库的解决方案。由于网络限制或公共镜像源不稳定,提出了通过创建私有仓库的方法:使用Docker容器构建与Glue版本匹配的wheel包,上传至S3并生成索引文件,配置桶策略限制VPC访问。在Glue Job中通过--additional-python-modules和--python-modules-installer-option参数指定私有源地址。该方法确保了环境一致性、安全性和可靠性,特别适合有严格网络限制的企业环境,并建议集成到CI/CD流程
2025-09-17 13:55:22
345
原创 本地搭建 Glue Spark History Server
文档中提供了两种搭建方式,cloudformation和docker image。所以中国区要想查看Glue job 的 history ui 只能用docker image自建server。而文档里提供的 Dockerfile 中使用的国外镜像源,非常慢,我测试了一下按文档上的步骤搭建完成需要1个多小时。并且只能通过代理访问,不能在EC2服务器以外的浏览器访问。将获取spark jar的方式从 maven 下载换成了由本地提供。修改 docker 镜像源为国内源,加快docker构建速度。
2023-07-07 18:48:14
178
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1