数据处理与分析:Spark SQL及相关操作
1. 连接外部数据源
1.1 连接Azure Cosmos DB
要通过 azure - cosmosdb - spark 连接到Azure Cosmos DB并创建Spark DataFrame,可以按照以下步骤操作:
1. 配置读取参数:
readConfig = {
"Collection" : "[COLLECTION]",
"SamplingRatio" : "1.0",
"schema_samplesize" : "1000",
"query_pagesize" : "2147483647",
"query_custom" : query
}
- 读取数据:
df = (spark
.read
.format("com.microsoft.azure.cosmosdb.spark")
.options(**readConfig)
.load())
- 统计航班数量:
df.count()
- 配置写入参数:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



