
大数据技术
文章平均质量分 79
介绍大数据方向相关技术
Y1nhl
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pyspark学习二:快速入门基本数据结构
实际工作中其实不需要自己安装和配置,更重要的是会用。所以就不研究怎么安装配置了。前面介绍过:简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据。Spark作为全球顶级的分布式计算框架,支持众多的编程语言进行开发。原创 2025-04-04 00:02:21 · 2030 阅读 · 108 评论 -
Pyspark学习一:概述
允许 Python 开发者轻松使用 Spark 进行大规模数据处理。,比 Hadoop MapReduce 更快,适用于。的 Python API,提供了。Spark 本身是一个。原创 2025-04-02 02:00:00 · 1972 阅读 · 107 评论 -
大数据技术之Scala语言—1
目前自己的求职方向还是做搜广推,实习中发现单单会个python好像有点不够,甚至大部分时间都在SQL。秉承着面向工作学习的方针,决定学习了解一下Scala,方便求职和工作。倒不用学的太深入,懂得基本语法能看懂别人给人的代码就行。建议之后有想做搜推的友友可以学习了解一下Scala。原创 2025-01-19 18:58:37 · 273 阅读 · 0 评论 -
Hadoop 简介及其hdfs常用命令
Hadoop 是一个 分布式存储与计算框架,用于大规模数据处理。最初由 Apache 基金会开发,能够处理 PB 级别 的数据,具有 高容错性、可扩展性和高吞吐量 等特点。Hadoop 主要由以下几个核心组件组成:HDFS 负责将大文件拆分存储到多个节点上,并进行数据冗余,提高容错能力。特点:YARN 负责管理 Hadoop 集群的计算资源,调度作业执行。特点:MapReduce 是 Hadoop 的计算引擎,采用 “Map + Reduce” 计算模型:Hadoop 的通用工具库,提供基础 API 以支持原创 2025-02-14 10:33:25 · 701 阅读 · 0 评论 -
Kafka 简介
Kafka 是一个强大且高效的分布式流处理平台,广泛应用于大规模数据流的实时处理、日志聚合和消息传递等场景。它的高吞吐量、持久化、可扩展性和高可靠性使得它成为处理实时数据流的理想选择。原创 2025-02-16 18:26:41 · 804 阅读 · 0 评论