- 博客(38)
- 收藏
- 关注
原创 Spark
一Spark的定义:专为大规模数据处理而设计的快速通用的计算引擎,并形成一个高速 发展应用广泛的生态系统。二 spark 的特点速度快易用性: 80多个高级运算符,跨语言:使用Java,Scala,Python,R和SQL快速编写应用程序通用性:Spark 提供了大量的库,包括 SQL、DataFrames、MLib、GraphX、 Spark开发者可以在同一个应用程序中无缝组合使用这些库。三spark 架构设计四、 十五个核心概念1 RDD 弹性分布式数据集,是对数
2022-05-28 09:29:30
185
原创 MapReduce进阶与经典案例
HDFS数据格式详解数据存储空间是有限的,数据本身和增量是动态变化的,企业要追求最佳的存储与计算的性价比。数据格式描述了数据保存在文件或者记录中的规则。HDFS中分为文件格式和压缩格式。1、文件格式文件格式按面向的存储形式不同,分为面向行和面向列的两大类文件格式。 面向行/列 类型名称 是否可切分 优点 缺点 适用场景 面向行 文本文件
2022-04-27 00:46:53
297
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人