基于谷歌云平台的数据科学:实现端到端实时数据管道
1. 目标受众与平台优势
如果你使用计算机处理数据,那么接下来的内容将对你有所帮助。无论你是数据分析师、数据库管理员、数据工程师、数据科学家还是系统程序员,即便当前的工作角色较为单一,也可以借此拓展技能,学习如何创建数据科学模型,并将其大规模应用于生产系统。
谷歌云平台(Google Cloud Platform)的设计让用户无需操心基础设施。像 Google BigQuery、Cloud Dataflow、Cloud Pub/Sub 和 Cloud ML Engine 等核心数据服务,均为无服务器且自动扩展的。例如,当你向 BigQuery 提交查询时,它会在数千个节点上运行,随后返回结果,无需手动启动集群或安装软件。同样,在 Cloud Dataflow 中提交数据管道,或在 Cloud Machine Learning Engine 中提交机器学习作业时,都能大规模处理数据和训练模型,无需担心集群管理和故障恢复。Cloud Pub/Sub 作为全球消息服务,会根据吞吐量以及发布者和订阅者的数量自动扩展。
即使运行像 Apache Spark 这样需在集群上操作的开源软件,谷歌云平台也能轻松应对。你只需将数据存于 Google Cloud Storage,而非 HDFS,然后启动特定作业的集群来运行 Spark 作业。作业完成后,可安全删除集群。这种特定作业的基础设施,避免了硬件过度配置或作业运行时容量不足的问题。此外,数据在静止和传输状态下均会加密,确保安全。对于数据科学家而言,无需管理基础设施是极大的解放。
谷歌云平台让用户无需关注虚拟机和集群,这得益于其强大的网络。其数据中心的网络二分带宽达 1 PB
超级会员免费看
订阅专栏 解锁全文
46

被折叠的 条评论
为什么被折叠?



