18、技术问题解答汇总:AWS、图数据库、交叉验证、Apache Spark 与分类数据

技术问题解答汇总:AWS、图数据库、交叉验证、Apache Spark 与分类数据

1. AWS EC2 实例与核心的使用问题

1.1 问题提出

在处理“中等数据”项目时,有人已能在单系统的 4 - 32 个核心上并行化 Python 代码(主要用于建模和预测)。现在考虑扩展到 EC2 集群(可能使用 StarCluster/IPython),但对于如何平衡在实例核心和集群实例间分配工作感到困惑。具体问题包括:
- 是否可以在实例内核心和实例间同时进行并行化?
- 运行多个少核心实例与少数多核心实例各有什么优缺点,是否有选择实例与核心比例的经验法则?

1.2 答案分析

1.2.1 使用 IPython 的情况

使用 IPython 时,并行化相对简单。StarCluster 中的并行 IPython 插件默认会为每个节点的每个物理核心启动一个引擎(可配置)。通过 DirectView API(如 map_sync、apply_sync 等)或 %px 魔法命令,可在所有引擎上运行任务。
- 工作分配 :每个核心至少有一个引擎,工作会自动在所有核心和实例间分配。
- 并行化可行性 :如果代码是高度并行的(在多个数据集上运行相同算法),可忽略引擎的具体运行位置;若核心间需要大量通信,则需让引擎主要与同一物理机上的其他引擎通信,但这种情况不太适合 IPython。
- 实例选择 :对于计算密集型任务,使用最大的 c3 实例;对于内存带宽密集型任务,使用最小的实例;对于消息传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值