
spark
阿泽财商会
作品主页https://mbd.pub/o/m/azcsh,高级人工智能算法训练工程师,人工智能应用工程师,高级工程师,高级信息系统项目管理师,软件设计师,CSM敏捷教练,csdn20周年直播嘉宾,高级健康管理师,会计师。
清华大学出版社《MongoDB游记》数据库教程书作者。专注于人工智能,数据挖掘技术与大数据,云计算与存储等技术的学习与研究。擅长人工智能算法训练,系统响应式开发、数据采集数据清洗和数据分析,分布式云存储运算等技术。熟悉后台系统、云存储计算平台的搭建,擅长解决架构过程中遇到的疑难问题。常用开发语言:java、python、c#、perl、sql。
展开
-
遇到问题--spark-scala---Cannot resolve overloaded method ‘udf‘--Defines a Scala closure of 11 arguments
情况我们在使用spark进行运算时,经常需要使用udf进行自定义函数。当我们自定义的函数参数个数小于等于10个时,udf能够正常编译运行。例如 val makeParams: (String, String, String, String, String, String, String, String, String, String) => TestProperty = (orderId: String, barcode: String, deliveryId: String,原创 2021-09-14 19:02:27 · 1967 阅读 · 0 评论 -
pyspark dataframe 去重
pyspark dataframe 去重两种去重,一种是整行每一项完全相同去除重复行,另一种是某一列相同去除重复行。整行去重dataframe1 = dataframe1.distinct()某一列或者多列相同的去除重复df = df.select("course_id", "user_id", "course_name")# 单列为标准df1 = df.distinct.drop...转载 2020-04-09 18:33:19 · 3792 阅读 · 0 评论 -
hadoop组件---spark实战-----airflow----调度工具airflow定时运行任务的理解
我们在前面已经初步了解了 airflow:hadoop组件—spark实战-----airflow----调度工具airflow的介绍和使用示例但是 我们开始 尝试使用 airflow的 定时任务的时候 ,常常遇到一个尴尬的情况, 任务没有成功运行,或者说 设置开始时间是今天,但是 明天 才开始运行。本篇文章 尝试 说明 其中的 原理。首先 需要声明:schedule_interval ...原创 2020-03-12 18:32:43 · 2570 阅读 · 0 评论 -
hadoop组件---spark实战-----airflow----调度工具airflow部署到k8s中使用
在之前的文章中 我们已经了解了airflow 和 它的工作原理。hadoop组件—spark实战-----airflow----调度工具airflow的介绍和使用示例Scheduler进程,WebServer进程和Worker进程需要单独启动。Scheduler和WebServer可以跑在一个操作系统内,也可以分开,而通常Worker需要很多,如果是部署特定的数量的Worker,那就需要特定数...原创 2020-02-27 23:20:07 · 9665 阅读 · 0 评论 -
hadoop组件---spark实战-----airflow----调度工具airflow的介绍和使用示例
Airflow是什么Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和管理,可视化方面和易用性都是很好的。2019年airflow 已经成长为apache的顶级项...原创 2020-02-27 15:18:33 · 7693 阅读 · 2 评论 -
hadoop组件---spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 cluster mode
目前最新稳定版本2.4.4的官方安装文档环境准备1、使用spark2.3以上的spark版本2、已经在运行的k8s集群版本需要大于1.6使用命令查询kubectl version输出为:zhangxiaofans-MacBook-Pro:Downloads joe$ kubectl versionClient Version: version.Info{Major:"1", M...原创 2020-01-20 16:24:24 · 1333 阅读 · 2 评论 -
hadoop组件---spark理论----spark on k8s模式的三种方式全面了解
我们在之前的文章中 已经了解了 spark支持的模式,其中一种就是 使用k8s进行管理。hadoop组件—spark----全面了解spark以及与hadoop的区别是时候考虑让你的 Spark 跑在K8s 上了spark on k8s的优势–为什么要把Spark部署在k8s上大数据和云计算一直分属两个不同的领域。大数据主要关注怎么将数据集中起来,挖掘数据的价值;云计算主要关注怎么更高效地...原创 2020-01-19 18:05:34 · 5924 阅读 · 0 评论 -
hadoop组件---spark实战----spark on k8s模式Spark Standalone on Docker方式安装spark
在本文的例子中,你将使用 Kubernetes 和 Docker 创建一个功能型 Apache Spark 集群。你将使用 Spark standalone 模式 安装一个 Spark master 服务和一组 Spark workers 。源代码Docker 镜像主要基于 https://github.com/mattf/docker-spark源码托管在 https://github....转载 2020-01-19 15:35:08 · 1911 阅读 · 0 评论 -
hadoop组件---spark----全面了解spark以及与hadoop的区别
Spark是什么Spark (全称 Apache Spark™) 是一个专门处理大数据量分析任务的通用数据分析引擎。spark官网Spark核心代码是用scala语言开发的,不过支持使用多种语言进行开发调用比如scala,java,python。spark githubSpark文档2.4.4Spark目前有比较完整的数据处理生态组件,可以部署在多种系统环境中,同时支持处理多种数据源。...原创 2020-01-16 16:47:12 · 5706 阅读 · 0 评论 -
如何在万亿级别规模的数据量上使用Spark
一、前言Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思路。文章内容为介绍Spark在DataMagic平台扮演的角色、如何快速掌握Spark以及DataMagic平台是如何使用好Spark的。二、Spark在DataMagic平台中的角色[外链图片转存失败(im...转载 2019-07-06 23:43:07 · 1674 阅读 · 1 评论