
Apache Spark
文章平均质量分 93
Apache Spark™ 是一种多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。它提供 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具,包括用于 SQL 和 DataFrames 的 Spa
boonya
资深Java,热衷大数据,Python爬虫,持续探索副业中,有需要的可以加我微信联系:boonya221
展开
-
在 Kubernetes 上运行 Spark
先决条件:正在运行的 Kubernetes 集群,版本 >= 1.24,并使用kubectl配置访问权限 。如果您还没有运行的 Kubernetes 集群,则可以使用 minikube在本地计算机上设置测试集群。我们建议使用启用了 DNS 插件的最新版本的 minikube。请注意,默认的 minikube 配置不足以运行 Spark 应用程序。我们建议使用 3 个 CPU 和 4g 内存,以便能够使用单个执行器启动一个简单的 Spark 应用程序。翻译 2024-10-29 18:19:45 · 176 阅读 · 0 评论 -
Java大数据:使用Apache Hadoop和Spark处理大数据集
处理大型数据集是软件开发人员面临的一个常见挑战,特别是在处理和分析数据以获得有意义的见解时。Apache Hadoop和Spark是两个强大的工具,可以帮助你克服这个挑战,让使用Java处理大数据变得更容易。在本教程中,我们将讨论如何使用Apache Hadoop和Spark处理大型数据集。我们还将提供代码片段和示例,以帮助您更好地理解这些概念。如果您想雇用具有大数据处理专业知识的远程Java开发人员,请考虑联系专门的Java开发团队。翻译 2024-10-08 22:46:01 · 531 阅读 · 0 评论 -
【点燃大数据】最新Hadoop3.x及其常用组件集群安装
如果你对大数据感兴趣,这篇文章将带你进入大数据环境的准备和安装。万事开头难,请耐心读完工具和环境部分,这部分给大家介绍了本文将要使用到的工具组件,在最后会提供一个完整的安装包资源和代码资源供大家学习之用。原创 2024-09-26 14:18:32 · 1265 阅读 · 1 评论 -
Apache Spark 通过容器镜像拉起实例
Apache Spark™ 是一种多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。它提供 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具,包括用于 SQL 和 DataFrames 的 Spark SQL、用于 pandas 工作负载的 Spark 上的 pandas API、用于机器学习的 MLlib、用于图形处理的 GraphX 和用于流处理的结构化流。翻译 2024-09-08 15:43:48 · 307 阅读 · 0 评论 -
Apache Hadoop3.2.2与Spark3.0.0环境安装
基础环境说明系统环境:centos8主机名:www.boonya.cnvi /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 www.boonya.cn boonya.cn::1 localhost localhost.localdomain localhost6 localhost6.localdomain6JDK基础环境安装下载并解压.原创 2021-02-17 15:20:56 · 3519 阅读 · 0 评论 -
Apache Spark 3.0 GraphX编程指南
学习地址:https://spark.apache.org/docs/latest/graphx-programming-guide.html目录总览入门属性图属性图示例图运算符运营商摘要列表物业经营者结构算子加盟运营商邻里聚集汇总消息(aggregateMessages)Map Reduce三元组转换指南(旧版)计算学位信息收集邻居缓存和取消缓存Pregel API图构建器顶点和边缘RDD顶点RDD边缘RDD优化.原创 2020-09-06 19:43:13 · 919 阅读 · 0 评论 -
Apache Spark 3.0 机器学习库(MLlib)指南
学习地址:https://spark.apache.org/docs/latest/ml-guide.html学习目录MLlib:主要指南基本统计 数据源 流水线 提取,转换和选择特征 分类与回归 聚类 协同过滤 频繁模式挖掘 模型选择和调整 进阶主题MLlib:基于RDD的API指南资料类型 基本统计 分类与回归 协同过滤 聚类 降维 特征提取和转换 频繁模式挖掘 评估指标 PMML模型导出 优化(开发人员)机器学习库(MLlib)指南..原创 2020-09-06 19:34:35 · 2033 阅读 · 1 评论 -
Apache Spark 3.0 DStreams-Streaming编程指南
目录总览一个简单的例子基本概念连结中初始化StreamingContext离散流(DStreams)输入DStreams和接收器基本资料进阶资源自订来源接收器可靠性DStreams上的转换DStreams上的输出操作使用foreachRDD的设计模式DataFrame和SQL操作MLlib操作缓存/持久化检查点累加器,广播变量和检查点部署应用要求升级应用程序代码监控应用性能调优减少批处理时间数据接收中的并原创 2020-09-06 19:28:34 · 844 阅读 · 1 评论 -
Apache Spark 3.0 结构化Streaming流编程指南
目录总览快速范例Scala语言Java语言Python语言R语言程式设计模型基本概念处理事件时间和延迟数据容错语义使用数据集和数据帧的API创建流数据框架和流数据集流数据帧/数据集的模式推断和分区流式数据帧/数据集的操作基本操作-选择,投影,汇总事件时间窗口操作处理后期数据和加水印加盟运营流静态联接流流连接内部联接,带有可选水印流重复数据删除处理多个水印的政策任意状态作业不支持的操作全球水印的局限性开原创 2020-09-06 18:49:54 · 1142 阅读 · 0 评论 -
Apache Spark 3.0 SQL DataFrame和DataSet指南
目录简介SQL数据集和数据框入门起点:SparkSessionScala语言Java语言Python语言R语言创建DataFrameScala语言Java语言Python语言R语言未类型化的数据集操作(也称为DataFrame操作)Scala语言Java语言Python语言R语言以编程方式运行SQL查询Scala语言Java语言Python语言R语言全局临时视图Scala语言Java语言Pyth.原创 2020-09-06 00:45:08 · 1631 阅读 · 0 评论 -
Apache Spark 3.0 RDD编程指南
RDD 是Apache Spark编程非常重要的一个特性。Spark使用Scala语言编写并支持Java和Python。目录总览与Spark链接Scala语言Java语言Python语言初始化SparkScala语言Java语言Python语言使用ShellScala语言Python语言弹性分布式数据集(RDD)并行集合Scala语言Java语言Python语言外部数据集Scala语言Java语言Python语言..原创 2020-09-05 23:55:12 · 721 阅读 · 0 评论 -
Apache Spark 3.0 拥抱大数据处理分析引擎
目录资源概述速度使用方便概论无处不在资源概述github代码库:https://github.com/apache/sparkPython,Scala,Java一睹为快示例:http://spark.apache.org/examples.htmlSpark Java版本示例:https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples作为Ja.原创 2020-09-05 22:56:58 · 336 阅读 · 0 评论 -
Springboot 集成Apache Spark 2.4.4与Scala 2.12
Apache Spark是用于大规模数据处理的统一分析引擎。它提供Java,Scala,Python和R中的高级API,以及支持常规执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括星火SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX用于图形处理,以及结构化流的增量计算和流处理。请注意,在Spark 2.0之前,Spark的主要编程接口是弹性分布式数据集(RDD)。在Spark 2.0之后,RDD被Dataset取代,Dataset的类型像RDD一样强,但是在后台进行了更丰富的原创 2020-09-02 18:30:41 · 2973 阅读 · 2 评论 -
Apache Spark 2.2.0 官方文档中文版
原文链接:http://www.apachecn.org/bigdata/spark/268.htmlApache Spark™ 是一个快速的, 用于海量数据处理的通用引擎.官方网址:http://spark.apache.org中文文档:http://spark.apachecn.org花了大概两周左右的时间,在原来Spark 2.0.2 中文文档版本的基础上,终于迭代出该Spark 2.2.0 中文文档的版本了。衷心感谢每一位贡献者,感谢ApacheCN让我们聚在一起奋斗...转载 2020-09-01 15:47:14 · 1093 阅读 · 1 评论 -
Docker 搭建Spark集群
文章转自:https://blog.youkuaiyun.com/lizongti/article/details/99674153Docker 搭建Spark集群环境准备 依赖 安装Docker Local模式(without Docker) 安装JDK 安装Scala 安装Spark 测试 Standalone 模式(without Docker) 更改hostname 更改配置 ssh免密登录 关闭防火墙 启动Spark集群 访问集群web 测.转载 2020-09-01 13:41:17 · 2012 阅读 · 2 评论 -
Apache Spark™是用于大规模数据处理的统一分析引擎
文章参考:百度百科sparkApache官方介绍:https://spark.apache.org/Apache官方下载:https://spark.apache.org/downloads.html简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于.转载 2020-08-31 17:58:58 · 503 阅读 · 0 评论