spark
文章平均质量分 54
柏舟飞流
山野村夫,少求学于江城,一无所长,性沉闷,好编码自娱.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark SQL操作Hive表
Spark SQL支持从Hive存储中读写数据。然而,Hive存在很多的依赖,而这些依赖又不包含在默认的各类Spark发型版本中。如果将Hive的依赖放入classpath中,Spark将自动加载它们。值得注意的是,这些依赖必须在所有节点中都存在。因为他们需要通过Hive的序列化和反序列化库(SerDes)来访问存储在Hive中的数据。 在Spark中配置Hive,需要将hive-site.xml, core-site.xml, hdfs-site.xml放置到Spark的conf/目录下。 需要操作H原创 2021-09-02 22:54:05 · 3081 阅读 · 0 评论 -
PySpark coding
记录一些pyspark的简单程序...... WordCount 读取hdfs文件,wc: from pyspark import SparkContext, SparkConf """ Pyspark Word Count Demo """ def sorted_all_result(wc_rdd): """ WordCount取全量,collect()之后排序 :param wc_rdd: RDD :return: """ word_list原创 2022-01-09 17:10:06 · 627 阅读 · 0 评论 -
Spark读写Hive
1. 读配置文件的方式 根据官网相关章节的说明,为了使spark能够获取到hive, hadoop的相关配置,可将hive-site.xml, core-site.xml, hdfs-site.xml这三个配置文件放到集群的${SPARK_HOME}/conf之下,而我们在项目开发时,maven项目中,则需放到resources目录之下,方便SparkConf实例化对象取到值。由于spark是通过thrift协议连接到hive的metastore服务,因此,在hive-site.xml中应加入如下配置:原创 2021-08-20 00:13:36 · 2913 阅读 · 0 评论 -
Spark RDD.takeOrdered倒序取数
首先观察RDD中takeOrdered的源码,num是取数个数,ord则是一个实现了Ordering特征的隐式参数。 scala在调用包含有隐式参数块的方法时,将首先查找可以直接访问的隐式定义和隐式参数,也就是说,当我们在调用takeOrdered(n)时,ord即为Ordering特征的默认实现,观察Ordering源码,以Int类型为例,排序方式为: 即为顺序排序。 因此,要实现倒序取数很简单,ord传入一个倒序排序的Ordering实现类即可。以下是相关示例代码: import or原创 2021-04-15 11:56:21 · 1062 阅读 · 2 评论
分享