
大数据
文章平均质量分 76
本专栏对大数据初级和中级从业者有较强参考意义,尤其是对于大数据入门,开发,调优,安装,运维等等大数据实战方面应有尽有
BigDataMLApplication
spark hadoop flink kafka 海量流批数据处理 、 机器学习、 运筹开发、运维等十年大数据和人工智能搬砖经验,欢迎关注
展开
-
【Spark ml 源码系列】ReadWriter原理用途源码分析(含逻辑回归调用示例)
并与。在Spark ML中,`ReadWriter`类是一个用于模型的读写操作的辅助工具。它提供了一种机制来读取和写入训练好的机器学习模型。`ReadWriter`的设计思想主要基于Java的序列化机制,并结合了Spark的分布式计算框架特性。其背后的原理是将模型的参数以二进制的形式进行序列化,并使用分布式文件系统(如HDFS)或本地文件系统进行存储和读取。原创 2023-12-07 12:34:25 · 1045 阅读 · 0 评论 -
hadoop Path用法示例源码详解
Hadoop Path是Hadoop文件系统(HDFS)中文件和目录的抽象表示。它由Hadoop核心库提供,并用于处理Hadoop分布式文件系统中的文件路径。原创 2023-12-06 23:59:49 · 589 阅读 · 0 评论 -
【spark床头书系列】Spark Structured Streaming 编程权威指南
Spark Structured Streaming 编程权威指南,看一篇就够了原创 2023-12-01 09:51:16 · 1371 阅读 · 0 评论 -
【spark床头书系列】Spark Streaming 编程权威使用指南
本文档为Spark的旧版本Streaming引擎。Spark Streaming 不再更新,是一个遗留项目。在Spark中有一种新的、更易用的流处理引擎,称为结构化流式处理。您应该使用Spark结构化流处理来开发流式应用和流水线。请参阅结构化流式处理编程指南。*原创 2023-11-30 09:55:27 · 1145 阅读 · 0 评论 -
【spark床头书系列】spark-shell 任务提交任务参数选项说明示例源码权威详解
spark-shell 任务提交任务参数选项说明示例源码详解原创 2023-11-27 23:47:23 · 1295 阅读 · 1 评论 -
【spark床头书系列】使用Apache Mesos部署Spark
部署Spark与Mesos的优势包括:- 在Spark和其他框架之间进行动态分配资源- 将资源按比例分配给多个Spark实例- 安全性原创 2023-11-27 23:39:46 · 549 阅读 · 0 评论 -
【spark床头书系列】DataFrameReader可以读取多少种数据?【建议收藏必看】
Spark DataFrame可以读取多少种数据原创 2023-11-26 12:14:00 · 680 阅读 · 0 评论 -
【spark床头书系列】Spark SQL示例用法所有函数示例权威详解二【建议收藏】
Spark SQL示例用法所有函数示例权威详解二原创 2023-11-26 00:24:43 · 1083 阅读 · 0 评论 -
【spark床头书系列】Spark SQL示例用法所有函数示例权威详解一【建议收藏】
Spark SQL示例用法所有函数示例权威详解原创 2023-11-26 00:13:52 · 1550 阅读 · 0 评论 -
【spark床头书系列】SparkSQL性能调优官网权威资料
SparkSQL性能调优官网权威资料,看一篇就够了原创 2023-11-25 23:28:27 · 1132 阅读 · 0 评论 -
【spark原理系列】 dataset api比rdd好在哪里?
相对于RDD,DataFrame提供了更加用户友好的API。DataFrame带来的诸多好处包括:Spark数据源、SQL/DataFrame查询、Tungsten和Catalyst优化以及跨语言的统一API。还有基于DataFrame的MLlib API为机器学习算法和多种语言提供了统一的API。DataFrame便于构建实际的机器学习管道,尤其是特征转换。原创 2023-11-25 00:05:00 · 1094 阅读 · 0 评论 -
【Spark ml源码系列】Spark ML 和 Spark MLlib 中vector转换用法用途示例中文源码详解
Spark 中的 Vector 主要用于特征表示、模型输入、特征转换和模型预测结果等机器学习任务中。它提供了一种灵活和方便的方式来处理和操作特征向量,使得在 Spark ML 中进行机器学习任务更加高效和便捷原创 2023-11-24 00:03:34 · 832 阅读 · 0 评论 -
【spark床头书系列】Spark YARN Cluster和Client两种不同提交模式区别:
YARN Cluster和Client两种不同提交模式详细区别原创 2023-11-23 00:16:36 · 1098 阅读 · 0 评论 -
【spark原理系列】 broadcast广播原理优缺点示例源码权威讲解
spark broadcast广播原理优缺点示例源码权威讲解原创 2023-11-22 00:01:40 · 1398 阅读 · 0 评论 -
【spark床头书系列】spark RDD 概述用法官方权威资料(建议收藏)
官方介绍rdd用法分类、共享变量广播 累积器等用法---rdd最值得反复看的官网文档原创 2023-11-21 22:36:57 · 209 阅读 · 0 评论 -
Spark如何创建和使用自定义估计器和模型的实例
Spark如何创建和使用自定义估计器和模型的实例原创 2023-11-20 00:04:31 · 183 阅读 · 0 评论 -
spark高频面试题100题源码解答【建议收藏】---持续更新中
spark高频面试题100题源码解答【建议收藏】---持续更新中原创 2023-11-13 22:32:19 · 539 阅读 · 0 评论 -
Linux useradd用法示例权威详解
useradd - 创建新用户或更新默认的新用户信息。原创 2023-11-13 21:31:37 · 2166 阅读 · 0 评论 -
Linux su用法示例权威详解
su 和 sudo 都允许用户以其他用户的身份执行命令,但它们的工作方式有所不同。su 需要知道目标用户的密码才能切换到该用户,并且会启动一个新的shell会话。su 命令用于更改用户身份为其他用户。su 命令需要目标用户的密码才能进行身份切换。另外,su 默认情况下不加载目标用户的环境变量,除非使用 - 或 -l 选项,而 sudo 则可以。默认情况下,su 使用目标用户的默认shell。以登录shell执行命令,并加载目标用户的环境变量。在切换用户之后立即执行指定的命令,然后退出。显示帮助消息并退出。原创 2023-11-12 23:13:10 · 118 阅读 · 0 评论 -
Linux sudo用法示例权威详解
sudo 和 su 都允许用户以其他用户的身份执行命令,但它们的工作方式有所不同。sudo 是通过配置文件(/etc/sudoers)来控制用户的访问权限,并提供了更细粒度的权限控制。sudo 允许普通用户以其他用户的身份执行命令,通常是超级用户(root)。sudo -l[l] [-AknS] [-g 组名|#组 ID] [-U 用户名] [-g 组名|#组 ID] [用户名]…如果同时指定了 -U 选项,则该组将被视为该用户的附加组。如果使用两个 -l,还会显示用户可以为其他用户执行的命令。原创 2023-11-12 23:11:36 · 100 阅读 · 0 评论 -
Hive中窗口函数的定义分类适用场景示例难点权威详解
在Hive中,窗口函数(Window Functions)用于对查询结果集中的每一行应用计算,并可以访问和处理其他行的值。窗口函数的定义包括以下几个关键部原创 2023-11-10 00:37:40 · 204 阅读 · 0 评论 -
spark高频面试题100题源码解答【建议收藏】---持续更新中
spark高频面试题100题源码和code示例解答【建议收藏】---持续更新中原创 2023-11-05 23:37:20 · 7914 阅读 · 0 评论 -
【Spark ML系列】Spark GeneralizedLinearRegression广义线性回归原理用法示例源码详解
Spark GeneralizedLinearRegression广义线性回归原理用法示例源码权威详解原创 2023-11-02 23:57:02 · 255 阅读 · 0 评论 -
web代理反向代理异同及在大数据hadoop中应用
在Hadoop的用户认证机制中,如果使用的是Simple认证机制,实际上ProxyUser的使用意义并不大,因为客户端本身就可以使用任意用 户对服务端进行访问,服务端并不会做认证。Hadoop中的代理主要指的是用户代理(Proxy User),它的作用是让超级用户(Superuser)模拟一个普通用户(Proxy User)来执行任务。综上所述,Web代理和反向代理在角色和功能上存在一些区别,但它们在数据转发、安全性、负载均衡和性能优化方面有一些共同点,都在Web应用程序中起着重要的作用。原创 2023-10-31 23:46:59 · 84 阅读 · 0 评论 -
Hive配置文件Hive-site.xml参数说明用途
hive配置文件详解原创 2023-10-31 23:46:21 · 1409 阅读 · 0 评论 -
Hadoop配置文件Core-site.xml参数说明用途
请注意,这里列出的参数、默认值和用法仅是一部分常见的示例,并且可能会根据不同的Hive版本、Hadoop发行版或其他自定义配置而有所变化。具体的参数配置和默认值应根据您的实际环境和需求来确定。原创 2023-10-31 23:45:28 · 703 阅读 · 0 评论 -
Kerberos 认证系统由来适用场景优缺点
Kerberos 认证系统的由来源于开放式网络环境中的安全需求。为了解决这一问题,研究人员提出了 Kerberos 认证系统,它采用第三方认证服务来验证用户身份,提高了网络环境的安全性。Kerberos 的命名方案主要采用一种独特的方式,将用户、服务器和认证服务器的标识信息进行编码。Kerberos 认证系统的设计初衷是为了在开放式网络环境中提供一种可靠、安全的认证方式。该系统在 MIT 的 Athena 项目中得到了广泛应用,并成为当今网络环境中重要的认证基础设施之一。原创 2023-10-31 23:44:33 · 972 阅读 · 0 评论 -
Spark ML中的Estimator源码解析
是Spark ML中的抽象类,用于将模型拟合到数据。原创 2023-08-25 08:02:46 · 97 阅读 · 0 评论 -
Spark ML中的UnaryTransformer源码解析
是Spark ML中的抽象类,用于接收一个输入列,应用转换并将结果作为新列输出。原创 2023-08-25 07:55:24 · 61 阅读 · 0 评论 -
Spark ML中的Transformer源码解析
是Spark ML中的抽象类,用于将一个数据集转换为另一个数据集。原创 2023-08-25 07:52:04 · 134 阅读 · 0 评论 -
SPARK MLLIB MODEL源码分析
该抽象类是 Spark ML 中模型的基类,所有具体的模型都需要继承自它。它提供了设置和获取父级估计器的方法,并定义了一个抽象的复制方法。原创 2023-08-25 07:40:54 · 110 阅读 · 0 评论 -
Spark Pipeline 类
在 Spark 中,Pipeline 是一个简单的管道,它可以作为一个估计器(Estimator)。Pipeline 由一系列阶段(stage)组成,每个阶段都是一个 Estimator 或者 Transformer。从 Pipeline 拟合得到的模型是一个 PipelineModel,它包含了对应于 Pipeline 阶段的拟合模型和变换器。然后,该模型作为一个 Transformer 被用于将数据集转换为下一个阶段的输入。如果一个阶段是一个 Transformer,则会调用其。原创 2023-08-25 07:34:01 · 154 阅读 · 0 评论 -
Spark PipelineModel
表示一个完整的数据处理和模型训练流水线,它由多个组成。在流水线中,每个可能是一个或一个Estimator。通过调用fit方法在训练数据上拟合整个流水线,会得到一个训练好的对象。该对象可以用于对新的数据进行预测或推断。原创 2023-08-23 23:32:28 · 256 阅读 · 0 评论 -
Hadoop HDFS中的NameNode、SecondaryNameNode和DataNode
在Hadoop HDFS(Hadoop分布式文件系统)中,有三个关键的组件:NameNode、SecondaryNameNode和DataNode。原创 2023-08-23 08:20:32 · 889 阅读 · 0 评论 -
Hadoop YARN
Hadoop YARN(Yet Another Resource Negotiator)是Apache Hadoop的一个子项目,是Hadoop 2.0引入的重要特性。在早期版本的Hadoop中,MapReduce作为数据处理的计算模型和资源管理器。然而,随着大数据应用的快速发展,原始的MapReduce模型逐渐暴露出一些限制和不足之处,例如不支持实时计算、不适合多种计算模型等。为了解决这些问题,Hadoop YARN应运而生。原创 2023-08-23 08:13:22 · 80 阅读 · 0 评论 -
Hadoop MapReduce
Hadoop MapReduce是Apache Hadoop的一个分布式计算模型和编程框架,最初由Google的MapReduce论文启发而来。MapReduce的目标是通过将大规模数据集分割为小的子任务,并在分布式环境中并行处理这些子任务,从而实现高性能的数据处理和分析。原创 2023-08-23 08:10:33 · 64 阅读 · 0 评论 -
Hadoop HDFS(分布式文件系统)简介
它最初是根据Google的GFS(Google File System)论文设计而来,通过将大规模数据集分布式存储在集群中的多个计算节点上,实现了高可靠性、高容错性和高吞吐量的数据存储和访问。大规模日志存储和分析:HDFS适用于存储和分析大规模的日志数据。用户可以将日志文件写入HDFS,并使用适当的工具和技术进行日志分析、问题排查和趋势预测。存储和处理大数据:HDFS是存储和处理大规模数据的理想选择,它提供了高可扩展性、高容错性和高吞吐量,适用于处理大数据集和执行复杂的分布式计算任务。原创 2023-08-23 07:16:30 · 325 阅读 · 0 评论 -
【java设计模式系列】原型模式
原型模式是一种创建型设计模式,它的目标是通过克隆现有对象来创建新对象,而无需依赖于显式的实例化过程。该模式由于其类似复制粘贴的方式,因此被称为原型模式。原创 2023-08-22 09:18:17 · 151 阅读 · 0 评论 -
iceberg snapshots快照删除接口源码分析
iceberg快照删除接口提供了一系列方法来控制过期快照的删除行为。通过调用不同的方法,可以设置要过期的快照ID、过期时间戳以及保留最近祖先快照的数量等。此外,还可以传递替代的删除实现和执行删除的ExecutorService。方法设置是否清理底层清单文件和数据文件原创 2023-08-21 23:22:18 · 310 阅读 · 1 评论 -
【java流系列】java 字符流
字符流是Java I/O中的一种基本流,用于以字符形式读取和写入数据。它提供了更高级别的操作,可以方便地处理文本数据。原创 2023-08-20 07:20:55 · 245 阅读 · 0 评论