云处理与迁移的关键要点解析
- 云处理并非只关注速度
- 处理观念的转变 :过去,数据和机器学习处理管道主要关注速度。但在公共云技术时代,企业能在数秒内获取额外资源,这改变了处理管道的构建视角。实际中,使用10台服务器1分钟和使用1台服务器10分钟的成本相同,因此重点从优化执行时间转向优化可扩展性和并行化。
- 理想的数据处理管道 :假设有一个完美的数据处理管道,1000个作业在1000个节点上并行处理,然后汇总结果。这样,无论规模如何,处理速度都不取决于作业数量,始终等于单个作业的处理时间。
- 相关技术支持 :越来越流行的无服务器基础设施可并行启动数千个处理节点。许多供应商提供纯容器即服务,定义好Docker镜像后可并行执行,只需支付处理时间费用。无服务器基础设施和容器即服务与原生消息总线或编排器结合,能将大量传入消息独立映射到可扩展的计算机服务,减少空闲时间,使基础设施完美匹配负载。
- 执行时间的新意义 :实现完美的水平可扩展性后,仍需关注执行时间,不过原因不同。在水平可扩展性完美的情况下,执行时间对批量处理速度影响不大,但对成本影响显著。将速度优化两倍意味着将成本优化两倍,这成为优化开发的新动力。
- 数据管道设计建议 :设计绝对可扩展的数据管道时,若不考虑优化算法,可能导致管道成本极高。可将应用拆分为模块化部分,在不同的可扩展服务上执行,以找到最适合应用的方案,减少CPU(或
超级会员免费看
订阅专栏 解锁全文
804

被折叠的 条评论
为什么被折叠?



