分布式处理与数据建模实战
1. 分布式处理基础
在分布式处理中,我们可以通过不同方式利用远程机器来完成任务,主要包括在远程机器上运行普通命令、直接在远程机器间分发本地数据以及将文件发送到远程机器进行处理并取回结果。
1.1 获取运行中的 AWS EC2 实例列表
若使用 Amazon Web Services,可通过命令行工具 aws 来获取运行中的 EC2 实例列表。若未使用 Data Science Toolbox,需先使用 pip 安装 awscli :
$ pip install awscli
使用 aws ec2 describe-instances 命令可返回所有 EC2 实例的详细信息,以 JSON 格式呈现。我们使用 jq 工具提取相关字段:
$ aws ec2 describe-instances | jq '.Reservations[].Instances[] | '\
> '{public_dns: .PublicDnsName, state: .State.Name}'
由于我们仅能将任务分发到运行中的实例,因此需过滤掉非运行状态的实例:
$ aws ec2 describe-instance
超级会员免费看
订阅专栏 解锁全文
295

被折叠的 条评论
为什么被折叠?



