谷歌云Dataproc的使用与贝叶斯分类实践
1. Dataproc集群管理
在谷歌云平台上使用Dataproc时,有一些重要的集群管理策略。当书籍付印时,Dataproc团队宣布了一项新功能,现在可以自动安排集群在闲置一段时间(如10分钟)后删除。同时,可以使用 这个工具 快速估算成本。
在完成集群的使用后,应删除集群,使用以下命令:
gcloud dataproc clusters delete ch6cluster
这与传统的Hadoop工作流程不同,传统的本地Hadoop安装可能会让集群持续运行数月。而在谷歌云平台上,删除集群是更好的做法,原因主要有两点:
- 快速创建 :启动一个集群通常不到两分钟,由于集群创建速度快且可自动化,保留未使用的集群是浪费资源的,因为只要机器处于运行状态,就需要付费,无论是否有实际任务在运行。
- 数据存储 :本地Hadoop集群常保持运行是因为数据存储在HDFS上。虽然在Cloud Dataproc中可以使用HDFS,但不建议这样做。更好的做法是将数据存储在Google Cloud Storage中,并在MapReduce作业中直接从Cloud Storage读取数据。由于谷歌数据中心内的网络速度极快(网络二分带宽可达每秒拍比特级别),对于大文件的持续读取,从Cloud Storage读取的速度与HD
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



