自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 在 Amazon Glue Job 中使用 Python 私有仓库的技术实践

本文介绍了在Amazon Glue中使用私有Python包仓库的解决方案。由于网络限制或公共镜像源不稳定,提出了通过创建私有仓库的方法:使用Docker容器构建与Glue版本匹配的wheel包,上传至S3并生成索引文件,配置桶策略限制VPC访问。在Glue Job中通过--additional-python-modules和--python-modules-installer-option参数指定私有源地址。该方法确保了环境一致性、安全性和可靠性,特别适合有严格网络限制的企业环境,并建议集成到CI/CD流程

2025-09-17 13:55:22 345

原创 本地搭建 Glue Spark History Server

文档中提供了两种搭建方式,cloudformation和docker image。所以中国区要想查看Glue job 的 history ui 只能用docker image自建server。而文档里提供的 Dockerfile 中使用的国外镜像源,非常慢,我测试了一下按文档上的步骤搭建完成需要1个多小时。并且只能通过代理访问,不能在EC2服务器以外的浏览器访问。将获取spark jar的方式从 maven 下载换成了由本地提供。修改 docker 镜像源为国内源,加快docker构建速度。

2023-07-07 18:48:14 178

原创 在EMR中实现 Running Solr on S3

Running Solr on S3

2022-09-02 22:49:42 467 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除