自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 软件工程笔记第三章:结构化分析与设计

本文介绍了结构化分析与设计方法(SA/SD)的基本概念与模型组成。SA模型主要包括数据流图(DFD)、实体联系图(E-R)和状态变换图(STD),分别描述系统数据处理、数据关系和状态变化。SD模型通过SC图将DFD转化为软件结构设计。文章还阐述了分层数据流图的自顶向下设计方法,以及E-R图、DFD和STD图的配合使用,为结构化系统分析提供了完整的方法论框架。

2026-01-08 11:14:54 377

原创 软件工程第六章、第七章:面向对象分析及设计

本文系统介绍了面向对象设计(OOD)的核心概念与方法。主要内容包括:1)OOD金字塔模型的四层结构(子系统设计、类和对象、消息、责任);2)系统设计的四类构件(领域、人机交互、任务管理、数据管理);3)设计模板的使用原则,强调"复合优于继承";4)OOA与OOD的区别分析;5)软件设计基础概念(模块/构件、抽象/细化、信息隐藏等);6)模块化设计原则(高内聚低耦合)。文章提供了清晰的对比表格和记忆口诀,重点突出OOD的关键考点与设计原则,适合作为软件工程学习者快速掌握面向对象设计要点的参

2026-01-08 10:23:11 707

原创 软件工程第八章:编码与测试

本文概述了软件编码与测试的核心内容。编码阶段将设计模型转化为可执行程序,强调编码风格应注重清晰性、文档化和用户友好性。测试部分区分了测试与调试,指出测试是系统性发现错误的过程,具有挑剔性、复杂性、不彻底性和经济性特点。文章详细介绍了黑盒测试(功能测试)和白盒测试(结构测试)的方法,包括等价分类法、边界值分析法和逻辑覆盖测试等。测试作为软件开发的关键环节,需平衡全面性与经济性,通过科学方法确保软件质量。

2026-01-08 00:35:56 840

原创 软件工程第九章、第十章:软件维护、软件重构、软件复用

本文介绍了软件维护的相关概念,包括四种维护类型:完善性维护(占比50-60%)、适应性维护(25%)、纠错性维护(20%)和防御性维护。阐述了软件可维护性的三个关键属性:可理解性、可修改性和可测试性,并提出通过完整文档和现代化开发方法来提高可维护性。此外,还简要说明了软件重构和软件复用技术。文章旨在帮助读者理解软件维护的基础知识,提升软件系统的可持续性和适应能力。

2026-01-07 22:45:55 964

原创 Sqoop复习笔记

Apache Sqoop是一个用于在Hadoop分布式文件系统(HDFS)和关系型数据库管理系统(RDBMS)之间进行高效批量数据传输的工具。2012年3月成为Apache顶级项目支持HDFS、Hive、HBase等Hadoop生态组件支持MySQL、Oracle、PostgreSQL等主流数据库开源工具,广泛用于大数据生态系统

2026-01-06 23:57:23 1255

原创 Flume笔记:Flume的基本介绍和使用

Apache Flume是一种分布式服务,旨在有效地收集、聚合和移动大量日志数据到集中式存储系统,如HDFS。它具有具有源、通道和接收器的灵活架构,支持来自各种来源的可靠数据流。Flume具有高度可扩展性和可定制性,支持日志聚合和实时数据分析等多种用例。它与Hadoop生态系统的集成使其成为大数据管道的关键工具,确保可靠高效的数据摄取和传输。Apache Flume是一种分布式、高可靠性、高可用性的工具,用于收集、聚合大量日志数据,并将其从不同来源传输到中央数据仓库。

2026-01-06 23:54:47 1322

原创 Hive第四章:HIVE Operators and Functions

Hive和其他关系数据库一样,提供了大量的操作符和函数。函数可以进一步分为内置函数和自定义函数。Hive功能可以满足各种应用的统计需求。本章主要介绍Apache Hive中使用的操作符和功能,以及Apache Hive的重要特性。OperatorTypeA+B所有数字类型使用 + 操作符进行加法运算。结果值取决于表达式中使用的最大数据类型(largest data type)。A-B所有数字类型使用 - 操作符进行减法运算。

2026-01-05 23:58:47 1249

原创 Hive第六章:Hive Optimization and Miscellaneous

Hive性能优化策略与实践 摘要:本文系统介绍了Hive查询性能优化的关键技术,包括本地模式、JVM重用、并行执行、Map/Reduce数量优化和EXPLAIN诊断工具。本地模式通过避免集群开销加速轻量级查询,JVM重用减少短任务启动成本,并行执行利用资源并发处理独立阶段。合理设置Reducer数量可防止数据倾斜,而EXPLAIN工具能分析执行计划瓶颈。这些优化技术可显著提升Hive查询效率,案例显示执行时间从475秒降至49秒。优化策略需根据数据规模、集群负载等因素灵活应用,平衡资源利用率与性能提升。

2026-01-05 21:51:42 933

原创 软件工程第二章:软件生存周期与软件过程

本文系统介绍了软件生存周期及其相关过程模型。首先阐述了软件生存周期的概念、阶段划分及环节,包括计划、开发、维护三大阶段和七个具体环节。其次详细分析了传统软件过程模型(瀑布模型、快速原型模型)和软件演化模型(增量模型、螺旋模型)的特点、流程及适用场景。随后介绍了统一过程(RUP)和敏捷过程等现代开发方法。最后简要提及可行性研究和风险分析。全文通过比较不同模型的优缺点,为软件开发过程选择提供了理论依据,特别强调了迭代开发和风险管理在现代软件开发中的重要性。

2026-01-04 23:49:38 1281

原创 Hive第五章:Integeration with HBase

HBase是Hadoop上的高性能NoSQL键值存储。Hive提供了一个存储处理程序机制,通过使用HBaseStorageHandler类来创建由Hive管理的HBase表,从而与HBase集成。通过Hive与HBase的集成,Hive用户可以利用HBase的实时事务性能进行实时大数据分析。目前,集成特性仍在开发中,特别是在提供更高性能和快照支持方面。HBase是一种用于存储大容量数据的分布式数据库。它是用Java编写的,运行在HDFS之上。因此,它是一种快速、高吞吐量地读写大量数据的方法。

2026-01-04 19:49:38 969

原创 Hive第三章:HQL的使用

本章主要介绍如何在HQL中使用Hive的各种命令来完成在Hive中创建表、删除表、修改表等操作。HIVE可以将SQL语句转换成MapReduce,在Hadoop上运行。HQL语法与普通SQL语法略有不同。Hive提供了一种机制,将结构投射到Hadoop中的数据上,并使用类似sql的语言HiveQL (HQL)查询数据。使用Hive是因为Hive中的表类似于关系数据库中的表。如果您熟悉SQL,这是小菜一碟。许多用户可以同时使用Hive-QL查询数据。UNION集操作从结果集中删除重复的行。

2026-01-03 23:55:23 1031

原创 Hive第二章:Hive Management Hive表的管理

本章重点介绍Hive的表管理和数据加载,包括如何创建表、修改表、删除表、本地加载数据和通过外部表加载数据。Partitioning 分区核心优势(分区剪裁)减少数据扫描最佳实践:选择低基数、常用于WHERE过滤的列风险警告:避免过度分区(如按用户ID分区),会导致Bucketing 分桶核心优势(数据均衡分布)和最佳实践:选择高基数、常用于JOIN或GROUP BY的列关键配置指定分桶列,指定桶数Hive作为基于Hadoop的数据仓库工具,通过类SQL接口简化了大数据的处理与分析。

2026-01-03 23:53:20 791

原创 Hive第一章:Introduction to Hive

Apache Hive是一个基于Hadoop的开源数据仓库框架,允许用户使用类SQL语言HiveQL(HQL)查询和分析存储在HDFS中的大规模数据。Hive旨在简化MapReduce编程,用户无需编写冗长的Java代码,只需通过HQL编写查询即可。其主要特点包括支持SQL-like查询语言、数据仓库功能(ETL、报表、分析)、可扩展性和容错性,以及读取时应用模式的灵活性(Schema on Read)。Hive将数据存储分为表数据(HDFS)和元数据(关系型数据库Metastore),并支持多种客户端接口

2026-01-02 17:03:42 1131

原创 软件工程笔记 第一章:绪论

软件工程绪论,介绍了概念、发展历程、编程范型、软件危机等

2026-01-01 21:28:36 1102

原创 Chapter 8 :Spark MLlib

Spark机器学习的相关内容

2025-12-29 11:00:39 702

原创 Chapter 7:Spark Streaming

Spark中流处理的相关知识

2025-12-29 09:51:48 694

原创 Chapter6 :Spark SQL

Spark-SQL

2025-12-28 23:42:43 986

原创 Chapter 5:DAG and Job Execution(Spark的内容操作流程)

Spark Job主要阐述了Spark的内容操作流程以及不提交RDD后各流程的操作原理等Spark计算逻辑。Shuffle描述了从map任务输出数据到reduce任务输入的过程。Shuffle是Map和Reduce之间的桥梁。Map输出必须在Reduce中使用以通过shuffle链接。shuffle一般分为两个部分:Map阶段的数据准备和Reduce阶段的数据拷贝处理。map侧的Shuffle通常称为Shuffle Write, Reduce侧的Shuffle称为Shuffle Read。

2025-12-28 20:21:14 708

原创 Chapter 4:RDD(非弹性分布式数据集)在spark中的作用

在集群的背后,有一个非常重要的分布式数据结构,这就是弹性分布式数据集(RDD)。作为一个逻辑上集中的实体,它在集群中的多台机器上运行数据分区。通过控制多台机器上不同的RDD分区,可以减少机器之间的数据变换。RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序。RDD的操作构成了整个Spark程序。本章的重点是RDD。RDD(弹性分布式数据集)是Spark的核心底层抽象。RDD是一个不可变的、分区的元素集合,可以并行处理。

2025-12-27 08:26:03 1230

原创 Flume知识点易错整理

Flume MCPT 考试易错点整理,供期末考试复习使用。Apache Flume 是分布式、高可靠、高可用的工具,用于从多源收集、聚合、传输大量日志数据至中央数据仓库,为 Apache 顶级项目(ASF top-level project)。补充:支持自定义数据发送 / 接收端,可简单处理数据后写入各类存储(如 HDFS、HBase)。以上就是flume MCPT中总结的一些易错点 供期末考试复习使用。

2025-12-26 15:29:25 598

原创 Chapter3:Scala的基本使用

scala的语法

2025-12-26 15:28:44 1065

原创 第2章:Spark集群安装与部署

本章详细分析Spark运行模式的设计与实现, 重点介绍Spark的几种运行模式和原理,并分析了Spark和Yarn的结合。Spark以多种模式运行,可以在独立机器上以本地模式或伪分布式模式运行。当集群以分布式模式运行时,底层资源调度可以使用Mesos或Yarn,也可以使用Spark的Standalone模式本身。在每个模式之前,介绍一些基本概念和模型。当Spark应用程序运行时,首先。

2025-12-25 01:12:58 819

原创 Flume 1.9.0 安装指南

跳过 VMware、CentOS 和 Hadoop 的安装(若仅测试 Flume 独立模式)。输入文本后,可在 Flume 控制台看到日志输出,确认数据采集成功。通过以上步骤,Flume 1.9.0 的安装与基础功能测试即完成。进入 Flume 配置目录,复制模板文件并设置。解压 Flume 安装包至。确保已安装 JDK(如。

2025-12-21 22:33:16 151

原创 Chapter1:Spark的基本介绍

Spark大数据处理技术简介(一)

2025-12-21 22:29:35 1099

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除