
大数据技术
大数据技术
大虎牙
一物不知 深以为耻 便求知若渴
展开
-
学习笔记 | 解析 Spark 数据处理与分析场景
数据处理场景按照大数据的作业类型在数据工程与数据科学中,很大一部分数据处理任务都可以被称为批处理(Batch Processing),所谓批处理,就是对数据进行批量处理,一次性对一定量的数据进行处理,根据数据量的大小,批处理从开始到结束的时间从数十秒到数小时都有可能,当然如果时间花费太长,还是会考虑优化、切分等,因为这样作业执行失败的成本太高了。批处理任务的输入和输出通常都是一批数据,在数据工程中常见的ETL场景中,经常会从数据库中抽取一部分数据进行去重后写入到存储系统,另外机器学习中训练模型都是原创 2020-06-20 22:36:41 · 768 阅读 · 0 评论 -
学习笔记 | YARN 统一资源管理与调度 YARN
统一资源管理与调度系统的设计;统一资源管理与调度系统的实现——YARN。01 统一资源管理与调度系统的设计YARN 的全称是 Yet Another Resource Negotiator,直译过来是:另一种资源协调者,但是它的标准名称是统一资源管理与调度系统,这个名称一共包含 3 个词:统一、资源管理、调度。来看看第 1 个词语:统一对于大数据计算框架来说,统一指的是资源并不会与计算框架绑定,对于所有计算框架来说,所有资源都是无差别的,也就是说这个系统可以支持多种计算框架,但这是狭义的统一.原创 2020-06-20 22:22:22 · 969 阅读 · 0 评论 -
学习笔记 | Spark简介、MapReduce
01 Spark的定义Spark:一个通用的快速分析引擎。分布式计算框架简言之,Spark 为我们常见的批处理、流处理、数据分析、数据探索、机器学习等场景都提供了很好的解决方案,任何有数据处理需求的人,都可以用它来完成自己的研究与日常工作。02 MapReduce: 计算框架和编程模型内容主要有以下几点:Google 的三驾马车;MapReduce 编程模型与 MapReduce 计算框架;并发与并行;如何理解分布式计算框架的编程接口与背后的工程实现。Google 的三驾马车U原创 2020-06-20 20:54:37 · 919 阅读 · 0 评论 -
学习笔记 | 大数据 | Hadoop分布式系统基础架构 简介
01 为什么学习Hadoop -> 原因?数据存量和增量极大极大数据需要存储和分析Hadoop可以存储并处理大量数据Hadoop编程简单易学02 Hadoop生态系统HBase、Hive、Spark更好的学习其他大数据技术数据访问HBase是非结构化的数据库,以键值对的形式进行存储。可以在线实时查询。数据传输序列化机器学习包03 学什么(以任务为导向)Hadoop架构、原理 + 完全分布式Hadoop集群搭建(搭建方法) + 常用HDFS操作原创 2020-06-03 15:09:30 · 1156 阅读 · 0 评论