
大数据Spark
木生火18624
多练内功
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
3. 掌握 Spark Streaming 编程——aboutyun
1、什么是 Spark Streaming? Spark Streaming 可以近实时地从 Kafka,Flume,TCP socket 接受数据,并对其进行实时处理。 它的原理是将流式计算转为一批很小的的批处理作业。 2、Streaming 中的常用概念 离散流(DStream):Streaming对内部持续的实时数据流的抽象描述,对Dstream的操作最终都转为了对 RDD 的操...原创 2020-01-03 11:58:35 · 192 阅读 · 0 评论 -
用spark-shell命令时候报错了——aboutyun
[aboutyun@master ~]$ spark-shell Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). 20/01/02 10:42:19 WARN util.NativeCodeLoader: Unable to load native-hadoop l...原创 2020-01-02 11:35:45 · 990 阅读 · 2 评论 -
2. 掌握 Spark DataFrame/SQL 编程——aboutyun
1、什么是 Spark DataFrame & SQL? Spark DataFrame 是一个带有列名称的分布式数据集,类似于关系型数据库中的一张表,可以通过结构化的数据文件,Hive中的表,外部数据库以及已经存在的RDD得到。(通过Rdd来创建DataFrame) Spark SQL 是使用 SQL 或 HiveQL 语法编写 SQL 语句,来执行计算任务。 2、Spark...原创 2019-12-31 08:37:07 · 195 阅读 · 0 评论 -
1. 掌握 Spark RDD 编程——aboutyun
1.1 什么是 RDD? RDD(Resilient Distributed Datasets):一个弹性分布式数据集, Spark中的基本抽象。(既可以放内存中也可以放磁盘中) 代表一个不变(只读)的、可以并行操作的元素的分区集合。 Spark中原生的RDD支持从以下三种方式创建:从scala集合中创建、从文件系统中创建、现有RDD的transform操作创建 1.1 RDD 特点...原创 2019-12-30 16:37:56 · 166 阅读 · 0 评论