
大数据
文章平均质量分 77
一缕阳光lyz
这个作者很懒,什么都没留下…
展开
-
大数据分析挖掘框架@Spark初步
Apache Spark是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量的廉价硬件之上,形成集群。Spark提供使用Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。Apache Spark 已经成为最受欢迎的大数据分布原创 2024-05-21 18:57:37 · 981 阅读 · 0 评论 -
Spark SQL 操作实战
Spark SQL 是 Apache Spark 处理结构化数据的模块。原创 2024-05-21 16:47:12 · 499 阅读 · 0 评论 -
Spark RDD 操作实战
PySpark是Spark的PythonAPI,允许Python调用Spark编程模型。原创 2024-05-21 16:44:30 · 514 阅读 · 0 评论