利用谷歌云处理大数据
1. 大数据概述
在数据处理领域,以往我们接触的大多是相对较小的数据集。而现在,我们将涉足大数据的世界,有些大数据甚至每小时都会发生变化。
并非所有大数据集都能下载到本地进行处理,原因主要有两点:一是数据量过大,本地计算机可能无法承载;二是部分数据集受法律限制,不允许下载。例如空气质量数据库,数据每小时更新,若要下载,需每小时获取新版本。在这种情况下,借助云服务处理数据是更优选择。
使用云服务处理大数据的一大优势在于,对本地计算机的性能要求大幅降低,只需让云完成数据库操作和数据分析工作即可。
大数据指的是那些规模过大或结构过于复杂,传统数据处理技术难以应对的数据集。包含大量案例和行的数据,更便于运用复杂的统计技术,且通常能降低错误发现率。随着计算机和传感器数量的激增,大数据在社会中的应用日益广泛。
接下来,我们将探讨如何使用Python和Pandas通过云访问大型数据库,并在树莓派上可视化分析结果。
2. 谷歌云与BigQuery
2.1 谷歌云平台
谷歌云平台是一套云计算服务,与谷歌搜索、YouTube等面向终端用户的产品基于相同的基础设施运行。这种利用自身数据服务和产品构建云服务的策略,在亚马逊和微软等公司也取得了成功。它为用户和公司创造了良好的环境,双方都能从产品和云服务的进步与改进中受益。
谷歌云平台拥有超过100种不同的API(应用程序编程接口)和数据服务产品,可用于数据科学和人工智能领域。本文主要使用的是名为BigQuery的谷歌API。
2.2 BigQuery介绍
REST
超级会员免费看
订阅专栏 解锁全文
7803

被折叠的 条评论
为什么被折叠?



