跟我一起学Spark之——数据读取与保存

本文深入探讨了Spark处理数据的三种常见来源:文件格式与文件系统、SparkSQL中的结构化数据源以及数据库与键值存储。详细介绍了不同数据源的特点及Spark如何根据文件扩展名自动选择合适的处理方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原书中写到:

        工程师会了解到更多的输出格式,有利于找到非常合适用于下游处理程序的格式。

        数据科学家则可能更关心数据现有的组织形式。

三类常见数据源:

1.文件格式与文件系统;

(文本文件、JSON、逗号分隔与制表符分隔值、SquenceFile、对象文件、Hadoop输入输出格式、文件压缩)

(本地“常规”文件系统、Amazon S3、HDFS)

2.Spark SQL中的结构化数据源;(Apache Hive、JSON)

3.数据库与键值存储;(Java数据库连接、Cassandra、HBase、Elasticsearch)

        Spark会根据文件的扩展名选择对应的处理方式,这一过程是封装好的,对用户透明。(诸如文本文件(非结构化)、Json格式(半结构化)、SequencrFile(结构化文件))。

总结:

        将数据读取到Spark中,并将计算结果以你所希望的方式存储起来。

未完待续~~~~~~

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值