
spark
文章平均质量分 93
YBK233
在积累中输出,在输出中沉淀
展开
-
SparkML
Apache Spark ML 是机器学习库在 Apache Spark 上运行的模块。功能模块介绍名称功能数据模型管道API模型参数模块模型变量相关模块分类算法模块聚类算法模块推荐系统模块回归算法模块参数调整模块模型验证模块。原创 2024-06-03 10:25:43 · 629 阅读 · 0 评论 -
Spark SQL
Spark SQL是一个用于处理结构化数据对组件,主要用于结构化处理和对数据执行SQL查询,类似于pandas操作,只不过数据量相对更大。批量处理与数据分析在数据挖掘过程中用于数据准备和数据探索内存需求量大的数据,用spark SQL会出现内存溢出,建议使用hive不支持数据更新不可建立索引spark SQL数据集类型:DataFrame是一个以命名列方式组织的分布式数据集,与关系数据库中的表类似。原创 2024-06-02 21:59:34 · 1139 阅读 · 2 评论 -
Spark介绍及RDD操作
spark封装了python接口,使用python调用spark工作原理如下 SparkCore-RDD RDD(Resilient Distributed DataSes)指一个只读的,可分区的分布式数据集。这个数据集放在内存或缓存中,可在计算中重复读取,RDD特点: 返回值还是一个RDD,如Map、GroupBy操作。转换操作是延迟操作的,只有遇到后续的行动(Action)操作才会执行,这也为代码优化提供可能。转换操作如下: flatMp会将每次返回的结果扁平化,例如:map 返回的 是 [1,原创 2024-06-02 16:50:40 · 921 阅读 · 0 评论