18、技术问题解答汇总：AWS、图数据库、交叉验证、Apache Spark 与分类数据

gitlab7runner

于 2025-10-30 08:29:28 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：解码数据科学文章标签： AWS EC2 图数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitlab7runner/article/details/154112507

解码数据科学专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

技术问题解答汇总：AWS、图数据库、交叉验证、Apache Spark 与分类数据

1. AWS EC2 实例与核心的使用问题

1.1 问题提出

在处理“中等数据”项目时，有人已能在单系统的 4 - 32 个核心上并行化 Python 代码（主要用于建模和预测）。现在考虑扩展到 EC2 集群（可能使用 StarCluster/IPython），但对于如何平衡在实例核心和集群实例间分配工作感到困惑。具体问题包括：
- 是否可以在实例内核心和实例间同时进行并行化？
- 运行多个少核心实例与少数多核心实例各有什么优缺点，是否有选择实例与核心比例的经验法则？

1.2 答案分析

1.2.1 使用 IPython 的情况

使用 IPython 时，并行化相对简单。StarCluster 中的并行 IPython 插件默认会为每个节点的每个物理核心启动一个引擎（可配置）。通过 DirectView API（如 map_sync、apply_sync 等）或 %px 魔法命令，可在所有引擎上运行任务。
- 工作分配 ：每个核心至少有一个引擎，工作会自动在所有核心和实例间分配。
- 并行化可行性 ：如果代码是高度并行的（在多个数据集上运行相同算法），可忽略引擎的具体运行位置；若核心间需要大量通信，则需让引擎主要与同一物理机上的其他引擎通信，但这种情况不太适合 IPython。
- 实例选择 ：对于计算密集型任务，使用最大的 c3 实例；对于内存带宽密集型任务，使用最小的实例；对于消息传

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。