igQuery是Google于2011年底正式推出的一项Web服务,通过该服务,开发者可以使用Google的架构来运行SQL语句对超大型的数据库进行操作。即BigQuery可以对开发者上传的超大型数据进行直接交互式分析,开发者无需投资建立自己的数据中心。
今天,谷歌升级了BigQuery,带来了更强大的功能,比如更大的查询范围、新的数据类型、更灵活的表结构、更好的分析工具等。具体如下。
1. Big JOIN 和 Big Group Aggregations
从多个庞大的数据集中提取信息是非常具有挑战性且非常耗时,如果你的数据过大(TB级别),往往需要复杂的MapReduce工作流、并需要为基础设施投入大量的资金和时间。
新版本BigQuery中带来了一个新的功能,使得分析师和开发者可以在数据库中更快地运行类似SQL的连接和聚合查询,而无需分批次处理。 Big JOIN 功能可以通过公共key合并两个大型数据表,并产生一个结果集,大大简化了数据分析工作。
对于分组查询,可以使用新的Big Group Aggregations功能,允许开发者在结果集分组中包含更多的值。
要使用这些新功能,只需在JOIN或GROUP BY字句中加上EACH修饰符。更多信息:BigQuery query reference
2. 对TIMESTAMP数据类型的原生支持
新版本中增加了TIMESTAMP数据类型,该类型允许开发者导入日期和时间值的同时保留时区偏移信息。此外,还增加了一些函数,用于将TIMESTAMP字段转换为其他格式、计算间隔、提取部分值(小时、星期、时刻等)。更多信息: query reference#timestamp
3. 添加列到现有BigQuery表格
要使用此功能,只需提供一个新的模式和列数据,并使用BigQuery API方法“Tables: update”或“Tables: patch”即可。更多信息: BigQuery API reference
4. BigQuery Web UI:数据集链接和数据集共享通知
这提供了一个便捷的方式,使得授权用户可以快速访问数据集,并允许标记和共享。此外,还增加了电子邮件通知,以告知用户他们已经获得了数据集的访问权限。
详细信息: BigQuery gets big new features to make data analysis even easier
今天,谷歌升级了BigQuery,带来了更强大的功能,比如更大的查询范围、新的数据类型、更灵活的表结构、更好的分析工具等。具体如下。

1. Big JOIN 和 Big Group Aggregations
从多个庞大的数据集中提取信息是非常具有挑战性且非常耗时,如果你的数据过大(TB级别),往往需要复杂的MapReduce工作流、并需要为基础设施投入大量的资金和时间。
新版本BigQuery中带来了一个新的功能,使得分析师和开发者可以在数据库中更快地运行类似SQL的连接和聚合查询,而无需分批次处理。 Big JOIN 功能可以通过公共key合并两个大型数据表,并产生一个结果集,大大简化了数据分析工作。
对于分组查询,可以使用新的Big Group Aggregations功能,允许开发者在结果集分组中包含更多的值。
要使用这些新功能,只需在JOIN或GROUP BY字句中加上EACH修饰符。更多信息:BigQuery query reference
- /* JOIN EACH example
- * Selects the top 10 most edited Wikipedia pages
- * of words that appear in works of Shakespeare.
- */
- SELECT
- TOP(wiki.title, 10), COUNT(*)
- FROM
- [publicdata:samples.wikipedia] AS wiki
- JOIN EACH
- [publicdata:samples.shakespeare] AS shakespeare
- ON
- shakespeare.word = wiki.title;
2. 对TIMESTAMP数据类型的原生支持
新版本中增加了TIMESTAMP数据类型,该类型允许开发者导入日期和时间值的同时保留时区偏移信息。此外,还增加了一些函数,用于将TIMESTAMP字段转换为其他格式、计算间隔、提取部分值(小时、星期、时刻等)。更多信息: query reference#timestamp
- /* TIMESTAMP example
- * Which hours in the day are the most popular for GitHub actions?
- * This query converts github_timeline "created_at" date time
- * strings to BigQuery TIMESTAMP, and extracts the hour from each.
- */
- SELECT
- HOUR(TIMESTAMP(created_at)) AS event_create_hour,
- COUNT(*) AS event_count
- FROM
- [publicdata:samples.github_timeline]
- GROUP BY
- event_create_hour
- ORDER BY
- event_count DESC;
3. 添加列到现有BigQuery表格
要使用此功能,只需提供一个新的模式和列数据,并使用BigQuery API方法“Tables: update”或“Tables: patch”即可。更多信息: BigQuery API reference
4. BigQuery Web UI:数据集链接和数据集共享通知
这提供了一个便捷的方式,使得授权用户可以快速访问数据集,并允许标记和共享。此外,还增加了电子邮件通知,以告知用户他们已经获得了数据集的访问权限。

详细信息: BigQuery gets big new features to make data analysis even easier