文件格式与文件系统
对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、Amazon S3 等)中的数据,Spark 可以访问很多种不同的文件格式,包括文本文件、JSON、SequenceFile,
以及protocol buffer。我们会展示几种常见格式的用法,以及Spark 针对不同文件系统的配置和压缩选项。
对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、Amazon S3 等)中的数据,Spark 可以访问很多种不同的文件格式,包括文本文件、JSON、SequenceFile,
以及protocol buffer。我们会展示几种常见格式的用法,以及Spark 针对不同文件系统的配置和压缩选项。
Spark SQL中的结构化数据源:介绍Spark SQL 模块,它针对包括JSON 和Apache Hive 在内的结构化数据源,为我们提供了一套更加简洁高效的API。此处会粗略地介绍一下如何使用Spark
• 数据库与键值存储
Spark 自带的库和一些第三方库,它们可以用来连接Cassandra、HBase、Elasticsearch 以及JDBC 源。
本文介绍了Apache Spark如何处理多种文件格式及数据源,包括本地文件系统、分布式文件系统中的文本文件、JSON等,并探讨了Spark SQL模块对结构化数据的支持,以及通过Spark连接外部数据库与键值存储的方式。
2340

被折叠的 条评论
为什么被折叠?



