Justice Young-优快云博客

原创软件工程笔记第三章：结构化分析与设计

本文介绍了结构化分析与设计方法（SA/SD）的基本概念与模型组成。SA模型主要包括数据流图（DFD）、实体联系图（E-R）和状态变换图（STD），分别描述系统数据处理、数据关系和状态变化。SD模型通过SC图将DFD转化为软件结构设计。文章还阐述了分层数据流图的自顶向下设计方法，以及E-R图、DFD和STD图的配合使用，为结构化系统分析提供了完整的方法论框架。

2026-01-08 11:14:54 377

本文系统介绍了面向对象设计（OOD）的核心概念与方法。主要内容包括：1）OOD金字塔模型的四层结构（子系统设计、类和对象、消息、责任）；2）系统设计的四类构件（领域、人机交互、任务管理、数据管理）；3）设计模板的使用原则，强调"复合优于继承"；4）OOA与OOD的区别分析；5）软件设计基础概念（模块/构件、抽象/细化、信息隐藏等）；6）模块化设计原则（高内聚低耦合）。文章提供了清晰的对比表格和记忆口诀，重点突出OOD的关键考点与设计原则，适合作为软件工程学习者快速掌握面向对象设计要点的参

2026-01-08 10:23:11 707

原创软件工程第八章：编码与测试

本文概述了软件编码与测试的核心内容。编码阶段将设计模型转化为可执行程序，强调编码风格应注重清晰性、文档化和用户友好性。测试部分区分了测试与调试，指出测试是系统性发现错误的过程，具有挑剔性、复杂性、不彻底性和经济性特点。文章详细介绍了黑盒测试（功能测试）和白盒测试（结构测试）的方法，包括等价分类法、边界值分析法和逻辑覆盖测试等。测试作为软件开发的关键环节，需平衡全面性与经济性，通过科学方法确保软件质量。

2026-01-08 00:35:56 840

原创软件工程第九章、第十章：软件维护、软件重构、软件复用

本文介绍了软件维护的相关概念，包括四种维护类型：完善性维护（占比50-60%）、适应性维护（25%）、纠错性维护（20%）和防御性维护。阐述了软件可维护性的三个关键属性：可理解性、可修改性和可测试性，并提出通过完整文档和现代化开发方法来提高可维护性。此外，还简要说明了软件重构和软件复用技术。文章旨在帮助读者理解软件维护的基础知识，提升软件系统的可持续性和适应能力。

2026-01-07 22:45:55 964

原创 Sqoop复习笔记

Apache Sqoop是一个用于在Hadoop分布式文件系统（HDFS）和关系型数据库管理系统（RDBMS）之间进行高效批量数据传输的工具。2012年3月成为Apache顶级项目支持HDFS、Hive、HBase等Hadoop生态组件支持MySQL、Oracle、PostgreSQL等主流数据库开源工具，广泛用于大数据生态系统

2026-01-06 23:57:23 1255

原创 Flume笔记：Flume的基本介绍和使用

Apache Flume是一种分布式服务，旨在有效地收集、聚合和移动大量日志数据到集中式存储系统，如HDFS。它具有具有源、通道和接收器的灵活架构，支持来自各种来源的可靠数据流。Flume具有高度可扩展性和可定制性，支持日志聚合和实时数据分析等多种用例。它与Hadoop生态系统的集成使其成为大数据管道的关键工具，确保可靠高效的数据摄取和传输。Apache Flume是一种分布式、高可靠性、高可用性的工具，用于收集、聚合大量日志数据，并将其从不同来源传输到中央数据仓库。

2026-01-06 23:54:47 1322

原创 Hive第四章：HIVE Operators and Functions

Hive和其他关系数据库一样，提供了大量的操作符和函数。函数可以进一步分为内置函数和自定义函数。Hive功能可以满足各种应用的统计需求。本章主要介绍Apache Hive中使用的操作符和功能，以及Apache Hive的重要特性。OperatorTypeA+B所有数字类型使用 + 操作符进行加法运算。结果值取决于表达式中使用的最大数据类型（largest data type）。A-B所有数字类型使用 - 操作符进行减法运算。

2026-01-05 23:58:47 1249

原创 Hive第六章：Hive Optimization and Miscellaneous

Hive性能优化策略与实践摘要：本文系统介绍了Hive查询性能优化的关键技术，包括本地模式、JVM重用、并行执行、Map/Reduce数量优化和EXPLAIN诊断工具。本地模式通过避免集群开销加速轻量级查询，JVM重用减少短任务启动成本，并行执行利用资源并发处理独立阶段。合理设置Reducer数量可防止数据倾斜，而EXPLAIN工具能分析执行计划瓶颈。这些优化技术可显著提升Hive查询效率，案例显示执行时间从475秒降至49秒。优化策略需根据数据规模、集群负载等因素灵活应用，平衡资源利用率与性能提升。

2026-01-05 21:51:42 933

原创软件工程第二章：软件生存周期与软件过程

本文系统介绍了软件生存周期及其相关过程模型。首先阐述了软件生存周期的概念、阶段划分及环节，包括计划、开发、维护三大阶段和七个具体环节。其次详细分析了传统软件过程模型（瀑布模型、快速原型模型）和软件演化模型（增量模型、螺旋模型）的特点、流程及适用场景。随后介绍了统一过程（RUP）和敏捷过程等现代开发方法。最后简要提及可行性研究和风险分析。全文通过比较不同模型的优缺点，为软件开发过程选择提供了理论依据，特别强调了迭代开发和风险管理在现代软件开发中的重要性。

2026-01-04 23:49:38 1281

原创 Hive第五章：Integeration with HBase

HBase是Hadoop上的高性能NoSQL键值存储。Hive提供了一个存储处理程序机制，通过使用HBaseStorageHandler类来创建由Hive管理的HBase表，从而与HBase集成。通过Hive与HBase的集成，Hive用户可以利用HBase的实时事务性能进行实时大数据分析。目前，集成特性仍在开发中，特别是在提供更高性能和快照支持方面。HBase是一种用于存储大容量数据的分布式数据库。它是用Java编写的，运行在HDFS之上。因此，它是一种快速、高吞吐量地读写大量数据的方法。

2026-01-04 19:49:38 969

原创 Hive第三章：HQL的使用

本章主要介绍如何在HQL中使用Hive的各种命令来完成在Hive中创建表、删除表、修改表等操作。HIVE可以将SQL语句转换成MapReduce，在Hadoop上运行。HQL语法与普通SQL语法略有不同。Hive提供了一种机制，将结构投射到Hadoop中的数据上，并使用类似sql的语言HiveQL （HQL）查询数据。使用Hive是因为Hive中的表类似于关系数据库中的表。如果您熟悉SQL，这是小菜一碟。许多用户可以同时使用Hive-QL查询数据。UNION集操作从结果集中删除重复的行。

2026-01-03 23:55:23 1031

原创 Hive第二章：Hive Management Hive表的管理

本章重点介绍Hive的表管理和数据加载，包括如何创建表、修改表、删除表、本地加载数据和通过外部表加载数据。Partitioning 分区核心优势（分区剪裁）减少数据扫描最佳实践：选择低基数、常用于WHERE过滤的列风险警告：避免过度分区（如按用户ID分区），会导致Bucketing 分桶核心优势（数据均衡分布）和最佳实践：选择高基数、常用于JOIN或GROUP BY的列关键配置指定分桶列，指定桶数Hive作为基于Hadoop的数据仓库工具，通过类SQL接口简化了大数据的处理与分析。

2026-01-03 23:53:20 791

原创 Hive第一章：Introduction to Hive

Apache Hive是一个基于Hadoop的开源数据仓库框架，允许用户使用类SQL语言HiveQL（HQL）查询和分析存储在HDFS中的大规模数据。Hive旨在简化MapReduce编程，用户无需编写冗长的Java代码，只需通过HQL编写查询即可。其主要特点包括支持SQL-like查询语言、数据仓库功能（ETL、报表、分析）、可扩展性和容错性，以及读取时应用模式的灵活性（Schema on Read）。Hive将数据存储分为表数据（HDFS）和元数据（关系型数据库Metastore），并支持多种客户端接口

2026-01-02 17:03:42 1131

原创软件工程笔记第一章：绪论

软件工程绪论，介绍了概念、发展历程、编程范型、软件危机等

2026-01-01 21:28:36 1102

原创 Chapter 8 ：Spark MLlib

Spark机器学习的相关内容

2025-12-29 11:00:39 702

原创 Chapter 7：Spark Streaming

Spark中流处理的相关知识

2025-12-29 09:51:48 694

原创 Chapter6 ：Spark SQL

Spark-SQL

2025-12-28 23:42:43 986

原创 Chapter 5：DAG and Job Execution(Spark的内容操作流程)

Spark Job主要阐述了Spark的内容操作流程以及不提交RDD后各流程的操作原理等Spark计算逻辑。Shuffle描述了从map任务输出数据到reduce任务输入的过程。Shuffle是Map和Reduce之间的桥梁。Map输出必须在Reduce中使用以通过shuffle链接。shuffle一般分为两个部分：Map阶段的数据准备和Reduce阶段的数据拷贝处理。map侧的Shuffle通常称为Shuffle Write， Reduce侧的Shuffle称为Shuffle Read。

2025-12-28 20:21:14 708

原创 Chapter 4：RDD（非弹性分布式数据集）在spark中的作用

在集群的背后，有一个非常重要的分布式数据结构，这就是弹性分布式数据集（RDD）。作为一个逻辑上集中的实体，它在集群中的多台机器上运行数据分区。通过控制多台机器上不同的RDD分区，可以减少机器之间的数据变换。RDD是Spark的核心数据结构，通过RDD的依赖关系形成Spark的调度顺序。RDD的操作构成了整个Spark程序。本章的重点是RDD。RDD（弹性分布式数据集）是Spark的核心底层抽象。RDD是一个不可变的、分区的元素集合，可以并行处理。

2025-12-27 08:26:03 1230

原创 Flume知识点易错整理

Flume MCPT 考试易错点整理，供期末考试复习使用。Apache Flume 是分布式、高可靠、高可用的工具，用于从多源收集、聚合、传输大量日志数据至中央数据仓库，为 Apache 顶级项目（ASF top-level project）。补充：支持自定义数据发送 / 接收端，可简单处理数据后写入各类存储（如 HDFS、HBase）。以上就是flume MCPT中总结的一些易错点供期末考试复习使用。

2025-12-26 15:29:25 598

原创 Chapter3：Scala的基本使用

scala的语法

2025-12-26 15:28:44 1065

原创第2章：Spark集群安装与部署

本章详细分析Spark运行模式的设计与实现，重点介绍Spark的几种运行模式和原理，并分析了Spark和Yarn的结合。Spark以多种模式运行，可以在独立机器上以本地模式或伪分布式模式运行。当集群以分布式模式运行时，底层资源调度可以使用Mesos或Yarn，也可以使用Spark的Standalone模式本身。在每个模式之前，介绍一些基本概念和模型。当Spark应用程序运行时，首先。

2025-12-25 01:12:58 819

原创 Flume 1.9.0 安装指南

跳过 VMware、CentOS 和 Hadoop 的安装（若仅测试 Flume 独立模式）。输入文本后，可在 Flume 控制台看到日志输出，确认数据采集成功。通过以上步骤，Flume 1.9.0 的安装与基础功能测试即完成。进入 Flume 配置目录，复制模板文件并设置。解压 Flume 安装包至。确保已安装 JDK（如。

2025-12-21 22:33:16 151

原创 Chapter1：Spark的基本介绍

Spark大数据处理技术简介（一）

2025-12-21 22:29:35 1099

Justicer_Young的博客