- 博客(8)
- 收藏
- 关注
原创 Spark-SQL连接Hive的五种方法
如果使用 Spark 内嵌的 Hive, 则什么都不用做, 直接使用即可。但是在实际生产活动当中,几乎没有人去使用内嵌Hive这一模式。
2022-12-12 13:59:09
360
原创 RDD、DataFrame、DataSet的概念、区别联系、相互转换操作
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,1、RDD是Spark中的抽象数据结构类型,Spark中最基本的数据抽象,实现了以操作本地集合的方式来操作分布式数据集的抽象实现,2、它代表一个不可变、可分区、里面的元素可并行计算的集合。3、RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。4、RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。
2022-12-12 10:55:26
469
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人