Databricks提供以spark sql的方式管理数据,本文记录最近学习到的常用sql。
1.Create table
DROP TABLE IF EXISTS People10M;
CREATE TABLE People10M
USING parquet
OPTIONS (
path "/mnt/training/dataframes/people-10m.parquet",
header "true");
从OPTIONS指定的路径下读取数据并创建对应的表,USING parquet指定读取数据的结构为parquet。Apache parquet 是一种列式文件格式,具有加快查询速度的优化功能。 它是比CSV或 JSON更加高效的文件格式。细节参考:Parquet Files 。
当然databricks支持对CSV和JSON格式的数据读取。
2. Create Temporary Views
Databricks 可以方便快速的在内存中创建临时视图来支持数据操作。
CREATE OR REPLACE TEMPORARY VIEW PeopleSavings AS
SELECT
firstName,
lastName,
year(birthDate) as birthYear,
salary,
salary * 0.2 AS savings
FROM
People10M;
3. 查询
查询语法和常见的sql语句相同
# 查询数据
SELECT * FROM People10M;
# 查询表结构
DESCRIBE People10M;
# 关联查询
SELECT firstName
FROM PeopleDistinctNames
JOIN SSADistinctNames ON firstName = ssaFirstName
本文介绍了如何使用Databricks的SparkSQL进行数据管理,包括删除和创建Parquet格式的表,创建内存中的临时视图以简化数据操作,以及执行基本的SQL查询和关联查询。Parquet作为一种高效的列式存储格式,提高了查询速度。
737

被折叠的 条评论
为什么被折叠?



