
大数据Spark
木生火18624
多练内功
展开
-
3. 掌握 Spark Streaming 编程——aboutyun
1、什么是 Spark Streaming?Spark Streaming 可以近实时地从 Kafka,Flume,TCP socket 接受数据,并对其进行实时处理。它的原理是将流式计算转为一批很小的的批处理作业。2、Streaming 中的常用概念离散流(DStream):Streaming对内部持续的实时数据流的抽象描述,对Dstream的操作最终都转为了对 RDD 的操...原创 2020-01-03 11:58:35 · 165 阅读 · 0 评论 -
用spark-shell命令时候报错了——aboutyun
[aboutyun@master ~]$ spark-shellSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).20/01/02 10:42:19 WARN util.NativeCodeLoader: Unable to load native-hadoop l...原创 2020-01-02 11:35:45 · 933 阅读 · 2 评论 -
2. 掌握 Spark DataFrame/SQL 编程——aboutyun
1、什么是 Spark DataFrame & SQL?Spark DataFrame 是一个带有列名称的分布式数据集,类似于关系型数据库中的一张表,可以通过结构化的数据文件,Hive中的表,外部数据库以及已经存在的RDD得到。(通过Rdd来创建DataFrame)Spark SQL 是使用 SQL 或 HiveQL 语法编写 SQL 语句,来执行计算任务。2、Spark...原创 2019-12-31 08:37:07 · 177 阅读 · 0 评论 -
1. 掌握 Spark RDD 编程——aboutyun
1.1 什么是 RDD?RDD(Resilient Distributed Datasets):一个弹性分布式数据集, Spark中的基本抽象。(既可以放内存中也可以放磁盘中)代表一个不变(只读)的、可以并行操作的元素的分区集合。Spark中原生的RDD支持从以下三种方式创建:从scala集合中创建、从文件系统中创建、现有RDD的transform操作创建1.1 RDD 特点...原创 2019-12-30 16:37:56 · 146 阅读 · 0 评论