【论文解读】Occupy the Cloud: Distributed Computing for the 99%

最新推荐文章于 2024-08-28 21:01:58 发布

原创

最新推荐文章于 2024-08-28 21:01:58 发布 · 532 阅读

0 ·

CC 4.0 BY-SA版权

本文探讨了为何数据科学家需要“云按钮”，并介绍了PyWren项目，这是一个基于AWS Lambda的serverless解决方案，简化了数据科学任务的并行计算，降低了系统维护成本。通过PyWren，用户只需关注计算逻辑，而无需关心底层系统的细节。

Occupy the Cloud: Distributed Computing for the 99%

概述
Why is there no cloud button
示例：PyWren
讨论

概述

这是一篇非常值得阅读的关于serverless与数据科学处理相结合的文章。我先后供职的软件开发部门，产品的使用方都是进行大数据处理与研发的团队，对于他们使用云服务器或者本地大型机的需求有一些体会，也了解常规的任务投递与结果获取的方法。不得不说，本篇还是给了一些新的思考。

Why is there no cloud button

来自一个数据科学家的发问：“Why is there no cloud button?”。

对于云服务工程师而言，封装及使用cloud的各种API是日常的工作内容之一。只有服务商的接口写的不好，没有不能用已实现自己目的的接口。

而对于数据科学家而言，使用API和阅读相关文档是一件非常辛苦的事情，那意味着他们要转换自己的思维方式去习惯系统与网络的设计逻辑，那将是非常麻烦的一件事情。尤其是尽管每一家云服务提供商的服务内容大同小异，可是他们的文档复杂度以及API的使用方式却总是因为这些细微的差别造成时间和精力的额外付出。

一支背后拥有IT支持团队的数据科研团队，他们工作是相对轻松和专一的，因为他们使用的工具都是经过IT团队进行封装和处理，并且时刻为了解决他们的需求而不断更新优化工具。对于绝大多数实验室和初创数据型企业而言，则会非常辛苦。云计算的发展提供的算力支持，使得数据科学团队可以以更低的成本和更充分的资源去运行数据与算法，而社会分工要求数据科学家能专注数据科学而把系统维护交给更专业的人去做。

所以，serverless的价值对于数据科研而言，是具有非常大价值的一个云架构。数据科学团队只需要把自己想做的计算写在一个函数中，并定义好输入，最后以一个map()函数完成批量并行计算。不需要维护计算机系统，不需要进行并行设计。只需要预估一个内存和核数，就可以协调机器（严格来说是一个计算环境or容器）进行运算。