追逐☞-优快云博客

原创 408《数据结构》——第四章：串

知识点关键内容串定义字符序列，空串 ( n=0 )，子串需连续存储结构顺序（定长/堆分配）、块链（存储密度= (\frac{\text{字符字节数} \times \text{块大小}}{\text{结点总字节数}})）模式匹配- 朴素算法：主串回溯，最坏 (O(n \times m))KMP：主串不回溯，(O(n + m))，核心是数组高频考点1. KMP的计算2. 不同存储结构的优缺点3. 模式匹配过程模拟备考策略反复练习next和nextval数组的手工计算（每日2题）。

2025-06-08 17:13:47 776

原创 408《计算机组成原理》——第七章：输入输出系统

关键区别（2024真题）：DMA传输时，CPU 可继续执行非访存指令（选C）关键细节：真题（2022年大题）：多级中断嵌套中，若设备A优先级>B>C：核心特点：真题计算（2021年）：磁盘转速7200rpm，数据传输率4MB/s，每扇区512B：真题（2023年）：7200rpm磁盘，平均寻道5ms，每道80扇区，扇区512B：注：

2025-06-08 17:09:24 960

原创 408《计算机组成原理》——第六章：总线

要素说明真题考点机械特性物理接口尺寸非重点电气特性信号电压/时序同步 vs 异步（重点）功能特性信号功能定义（地址/数据）总线复用（2023年考）时间特性信号时序关系同步总线的时钟周期。

2025-06-08 17:06:44 682

原创 408《计算机组成原理》——第五章：中央处理器

取指周期间址周期执行周期中断周期取指周期公共操作（必考！）：二、数据通路设计（大题核心！占分12-15）1. 单总线数据通路（最常考！）关键控制信号：真题步骤（2023年大题）：真题（2020年）：微指令字段12位，采用直接控制法 → 最多12个控制信号关键参数：真题计算（2019年）：5段流水线（IF/ID/EX/M/WB），时钟100ns，执行100条指令：中断请求中断响应保存断点执行中断服务程序恢复断点关键概念：真题（2018年）：中断响应时间 = 中断查询周期 + 硬件保存

2025-06-08 17:04:17 1132

原创 408《计算机组成原理》——第四章：指令系统

操作码：指令功能（如加法、跳转）地址码：操作数地址（寄存器号/内存地址）指令字长：固定长度（RISC）vs 可变长度（CISC）2. 地址码数量与指令类型地址数名称指令示例访存次数特点三地址ADD R1,R2,R3R1←R2+R30次寄存器-寄存器型二地址MOV [A],R1内存[A]←R11次寄存器-存储器型一地址INC R1R1←R1+10次隐含目的操作数零地址HALT停机0次栈指令（PUSH/POP）真题陷阱：

2025-06-08 16:56:01 747

原创 408《计算机组成原理》——第三章：存储系统

以下是对考研408计算机组成原理第三章《存储系统》的超详细总结，综合近10年真题命题规律（2015-2024）与高频易错点，分模块梳理核心考点。本章占分约15-20分，大题必考Cache与主存扩展，选择题聚焦存储器特性与性能计算：CPU寄存器Cache L1/L2主存DRAM磁盘/SSD访问速度：寄存器 > Cache > 主存 > 外存容量成本：寄存器 < Cache < 主存 < 外存2. 关键性能指标指标公式单位说明存储容量存储单元数 × 存储字长Bit/Byt

2025-06-08 16:45:38 994

原创 408《计算机组成原理》——第二章：数据的表示与运算

补码范围不对称：n位补码最小值为(-2^{n-1})（无对应原码）浮点数规格化原码尾数：最高位必须为1补码尾数：符号位与最高位不同（如00.1xx或11.0xxIEEE754阶码真值：实际指数 = E - 偏移量（32位：127，64位：1023）校验码混淆海明码可纠1位错，CRC仅检错奇偶校验不能检测偶数位错误附：思维导图总览graph TDA[数据的表示与运算] --> B[整数表示：原码/反码/补码/移码]A --> C[定点运算：补码加减/乘法/除法]

2025-06-08 16:42:15 647

原创 408《计算机组成原理》——第一章：计算机发展历程

核心框架：硬件五部件 + 存储程序思想 + 二进制表示必背公式：CPU时间 = 指令数 × CPI × T，MIPS = f / (CPI × 10⁶)真题倾向：性能计算（占70%）、冯氏结构细节（占30%）。附：思维导图要点graph LRA[计算机系统概述] --> B[发展历程：四代+摩尔定律]A --> C[冯诺依曼体系：五大部件/存储程序]A --> D[硬件组成：存储器-MAR/MDR；A --> E[性能指标：CPI/MIPS/FLOPS/CPU时间]

2025-06-08 16:37:26 750

原创 408《数据结构》——第八章：排序（Sorting）

的详细总结，涵盖核心算法原理、性能分析、稳定性及考研重点难点。排序是数据结构的核心操作，也是算法设计的经典问题。：时间复杂度、空间复杂度、稳定性（相同关键字元素的相对位置是否改变）。掌握算法思想、熟记性能对比、动手模拟过程是拿分关键！：将无序序列调整为按关键字递增/递减排列的有序序列。：第七章排序是408考试的核心章节，高频考点集中在。考研408《数据结构》第七章。

2025-06-03 22:14:04 774

原创 408《数据结构》——第七章：查找 (Searching)

由同一类型的数据元素（或记录）构成的集合。数据元素中某个数据项的值，用于标识数据元素。主关键字 (Primary Key)能唯一标识一个元素；次关键字 (Secondary Key)可能对应多个元素。根据给定的某个值（Key），在查找表中确定一个其关键字等于给定值的元素（记录）。表中存在满足条件的元素，返回其位置或信息。表中不存在满足条件的元素，返回特定标识（如NULL或0衡量查找算法效率的主要指标。定义为查找成功时，需要比较关键字的平均次数。，其中：Pᵢ是查找第i个元素的概率。

2025-06-03 21:33:29 1006

原创 408《数据结构》——第六章：图 (Graph)

图G由两个集合V(顶点集, Vertex) 和E(边集, Edge) 组成，记作G = (V, E)。其中E是顶点对的集合（边可以有权重）。基本术语：图中的数据元素。顶点之间的连接关系。边没有方向，(v, w)等价于(w, v)。边有方向，<v, w>表示从v指向wv是弧尾 (Tail)w是弧头 (Head)。不存在重复边，且不存在顶点到自身的边（无自环）。完全图：任意两个顶点之间都存在边。边数。任意两个顶点之间都存在方向相反的两条弧。弧数。是G = (V, E)的子图，需满足。

2025-06-03 21:08:22 1136

原创 408《数据结构》——第五章：树与二叉树

树是n (n ≥ 0)个结点的有限集合。当n = 0时，称为空树。当n > 0时，满足：有且仅有一个特定的称为根 (Root)的结点。其余结点可分为m (m ≥ 0)个互不相交的有限集合，其中每个集合本身又是一棵树，称为根的子树 (Subtree)。树是一种递归定义的数据结构。基本术语：结点拥有的子树个数。树内各结点度的最大值。度为0的结点。度大于 0的结点。一个结点的子树的根称为该结点的孩子。一个结点是其所有子树根的双亲。具有相同双亲的结点。从根到该结点所经分支上的。

2025-06-03 21:04:34 1046

原创 408《数据结构》——第三章栈、队列和数组

只允许在一端（称为栈顶，Top）进行插入（入栈，Push）和删除（出栈，Pop）操作的线性表。后进先出 (Last In First Out, LIFO)。最后压入栈的元素最先被弹出。线性结构（一对一关系）。：初始化栈。：判空。：入栈（压栈）。：出栈（弹栈），并返回栈顶元素值。：读取栈顶元素（不删除）。：销毁栈。存储结构：使用顺序存储结构（数组）实现。int top;// 栈顶指针 } SqStack;栈顶指针top通常初始化为-1（指向栈顶元素下方空位）。

2025-06-03 12:07:26 1174

原创 408《数据结构》——第二章：线性表

线性表（Linear List）是具有相同数据类型的n (n ≥ 0)个数据元素的有限序列。。关键特性：元素个数有限。所有元素属于同一数据对象。元素之间存在严格的顺序关系。存在唯一的“第一个”元素（表头元素，无直接前驱）。存在唯一的“最后一个”元素（表尾元素，无直接后继）。除表头和表尾元素外，每个元素aᵢ(1 < i < n) 都有且仅有一个直接前驱aᵢ₋₁和一个直接后继aᵢ₊₁。一对一的线性关系。是线性结构的典型代表。基本操作（ADT定义的核心）：构造一个空的线性表L。

2025-06-01 23:35:17 1270

原创 408《数据结构》——第一章：绪论

信息的载体，能被计算机识别、存储和处理的符号集合（数值、字符、图形、图像、声音等）。数据的基本单位，通常作为一个整体进行考虑和处理（例如：一条学生记录、一个棋盘格子）。在数据结构中通常被当作一个结点或记录。构成数据元素的不可分割的最小单位（例如：学生记录中的学号、姓名、成绩）。具有相同性质的数据元素的集合（例如：所有学生记录的集合、所有整数的集合）。是数据的子集。相互之间存在一种或多种特定关系的数据元素的集合。它包含以下三方面的内容：数据元素之间的逻辑关系，与数据的存储无关，独立于计算机。

2025-06-01 23:27:34 867

原创大模型（7）——向量模型（向量化存储）

定义对比学习模型self.head = torch.nn.Linear(768, 256) # 降维embeddings = self.head(outputs.last_hidden_state[:, 0]) # 取[CLS]向量# 训练代码略（需准备正负样本对）

2025-05-27 22:48:22 1787

原创大模型（6）——语义分割

（Semantic Segmentation）的结合，正在计算机视觉领域发挥越来越重要的作用。语义分割的核心是为图像或视频中的每个像素分配语义类别标签（如“人”“车”“天空”），而大模型的引入显著提升了分割的精度、泛化能力和应用场景。，使其从纯视觉任务升级为感知-推理-决策闭环中的智能组件。未来随着多模态大模型的演进，语义分割将进一步融入通用人工智能（AGI）系统。大模型（如多模态大语言模型、视觉大模型等）与。大模型为语义分割带来了。

2025-05-27 22:42:48 1126

原创大模型（5）——编码器（Encoder）、解码器（Decoder）

编码器是“理解者”，擅长从数据中提取抽象特征；解码器是“生成者”，擅长基于上下文创造新内容；两者协作可处理复杂任务（如翻译、对话），而独立设计则针对特定场景优化（如GPT纯生成、BERT纯理解）。现代大模型（如LLaMA、PaLM）常采用解码器-only架构，因其生成能力更适配通用任务，而编码器-解码器架构在需精确对齐输入输出的场景（如翻译）中仍不可替代。

2025-05-27 22:35:43 2575

原创大模型（4）——Agent（基于大型语言模型的智能代理）

大模型Agent是一种基于大型语言模型（LLM）的智能系统，能够自主感知环境、规划任务、调用工具并完成复杂目标。其核心原理是，实现从“思考”到“行动”的闭环。

2025-05-27 22:30:14 1420

原创大模型——多模态检索的RAG系统架构设计

该架构通过预训练对齐或投影层学习实现跨模态向量统一，结合混合检索策略，使RAG系统能同时处理文本和图像查询，生成更丰富的多模态回答。

2025-05-20 23:10:55 1092

原创大模型（3）——RAG（Retrieval-Augmented Generation，检索增强生成）

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合信息检索与文本生成的技术，旨在通过引入外部知识库提升生成内容的准确性和相关性。其核心机制是先检索相关信息，再基于检索结果生成答案。相比传统生成模型，RAG具有更准确、知识可更新、透明可信等优势。RAG的核心组成包括检索器和生成器，工作流程分为检索阶段和生成阶段。训练方式可以是联合训练或分阶段训练。RAG的优势在于准确性、可解释性和动态更新，但也存在检索效率、依赖检索质量和上下文长度限制等局限。应用场景包括开放域问答

2025-05-20 23:03:01 851

原创大模型（2）——提示工程（Prompt Engineering）

提示工程是释放大模型潜力的关键技能，核心在于清晰定义任务+结构化引导模型思考。迭代优化：通过测试不同提示版本对比效果。领域适配：医疗、法律等专业领域需结合术语和规范。伦理审查：避免生成有害或偏见内容（如添加过滤条件）。通过持续实践，可显著提升模型输出质量，减少“AI幻觉”风险，使其真正成为高效的生产力工具。

2025-05-19 23:06:30 1388

原创大模型（1）——基本概念

定义大模型（Large Models）是指参数量极大（通常在十亿级（Billion）到万亿级（Trillion））的深度学习模型，通过海量数据和复杂架构训练，具备强大的泛化能力和多任务处理能力。大规模参数：模型参数量远超传统模型（如GPT-3有1750亿参数，PaLM达5400亿）。通用性：通过预训练学习通用知识，可适配多种下游任务（如文本生成、图像识别、代码编写）。自监督学习：依赖无标注数据（如互联网文本、图像）进行训练，无需人工标注。关键概念预训练与微调。

2025-05-19 22:36:04 853

原创机器学习（14）——模型调参

通过以上策略和代码示例，可以在千万级数据集上高效完成模型调参。实际应用中建议结合业务特点调整参数范围，并通过自动化流水线实现持续优化。

2025-05-19 22:16:31 1691

原创机器学习（13）——LGBM（2）

LightGBM是一种高效的梯度提升树算法，由微软开发，旨在解决传统梯度提升树在处理大规模数据时的性能瓶颈。其核心特点包括高效性、低内存使用和高精度。LightGBM通过基于直方图的算法优化，将连续特征离散化为直方图，减少计算量，并支持多线程和GPU加速，显著提升训练速度。此外，它继承了梯度提升树的高精度特性，支持分类、回归任务，并提供特征重要性评估和早停机制等功能。LightGBM广泛应用于电商、金融、医疗和工业等领域，尤其适合处理大规模数据。其优点在于训练速度快、内存占用低，但可能对参数设置较为敏感。

2025-05-18 21:00:23 1341

原创机器学习（12）——LGBM（1）

LightGBM因其高效性和优秀的性能，已成为许多机器学习竞赛和工业界应用的首选工具之一。高维特征通常是稀疏的，许多特征互斥（不会同时取非零值）。EFB将这些特征捆绑在一起，将复杂度从O(#features)降到O(#bundle)，同时不影响准确性。LightGBM（Light Gradient Boosting Machine）是微软开发的一个基于决策树算法的分布式梯度提升框架，专为高效性和可扩展性设计。LightGBM属于梯度提升决策树(GBDT)家族，是XGBoost之后的一个重要改进。

2025-05-18 20:57:06 1492

原创机器学习（11）——xgboost

XGBoost是一种高效的梯度提升决策树（GBDT）实现，广泛应用于机器学习和数据科学领域。它通过组合多个弱学习器（如决策树）来构建强学习器，具有以下核心特点：1）使用二阶导数优化，提升模型精度；2）引入正则化项，防止过拟合；3）支持并行计算，提高训练效率；4）采用后剪枝和稀疏感知算法，增强模型灵活性。XGBoost还通过列块存储、缓存优化和外存计算等技术，进一步优化了大规模数据处理能力。与LightGBM相比，XGBoost在树生长策略、特征处理和内存使用等方面有所不同，适用于不同场景。实践建议包括参数调

2025-05-18 17:06:01 2666

原创机器学习（10）——神经网络

神经网络（Neural Networks，简称NN）是一类模仿生物神经系统的数学模型，用于处理和解决各种类型的任务，如分类、回归、模式识别等。神经网络属于机器学习领域的一个重要分支，特别是在深度学习（Deep Learning）中起到了核心作用。神经网络通过层次化非线性变换实现强大的函数拟合能力，其成功依赖于：架构设计（如CNN处理图像、Transformer处理文本）。优化技术（如Adam、Dropout）。大规模数据与算力支撑（GPU/TPU）。

2025-04-26 16:20:45 2102

原创机器学习（9）——随机森林

它通过构建多个决策树（Decision Tree），并通过集成学习的思想，最终输出多个决策树的结果的平均值或多数投票结果，从而提高模型的准确性和稳定性。随机森林的核心思想是通过构建多个决策树，并结合它们的结果来进行预测。决策树继续生长，直到满足一定条件（例如，树的深度达到预设的最大值，或者节点的样本数小于某个阈值）为止。随机选择特征：在每个决策树的每个节点，选择一个随机的特征子集来进行分裂，而不是使用所有特征。在每个节点的划分时，随机选择一个特征子集，而不是使用所有特征，从而减少不同决策树之间的相关性。

2025-04-25 00:05:29 1486

原创机器学习（8）——主成分分析

主成分分析（PCA，Principal Component Analysis）是一种常用的降维技术，旨在通过线性变换将数据转换到一个新的坐标系中，使得数据的方差最大化，从而提取出数据中的主要特征。它在数据预处理、降维、噪声去除和数据可视化等领域有广泛应用。PCA通过正交变换提取数据主要变化方向，是降维和特征提取的基石。理解其数学本质（特征分解）和局限性（线性假设）有助于在实际任务中合理应用。进阶方法（如核PCA）可解决非线性问题。

2025-04-24 23:09:16 1172

原创机器学习（7）——K均值聚类

K均值是聚类任务的基础算法，核心在于迭代优化质心位置。尽管有局限性（如需预设K值），但其高效性和易实现性使其在实践中广泛应用。改进方法（如K-Means++）和评估技巧（肘部法则）可进一步提升效果。

2025-04-24 22:22:30 1604 1

原创机器学习（6）——朴素贝叶斯

朴素贝叶斯算法（Naive Bayes）是一种基于贝叶斯定理的概率分类算法，在机器学习和数据挖掘中广泛应用。它被称为“朴素”的原因是它假设特征之间是条件独立的，这简化了模型的复杂度，使得它在许多实际问题中能够表现得相当高效，尤其适用于文本分类、垃圾邮件识别等任务。朴素贝叶斯是一种简单但强大的概率分类器，尤其适合高维稀疏数据和实时预测场景。尽管其独立性假设在实际中可能不成立，但在许多任务（如文本分类）中仍表现优异。理解其数学基础（贝叶斯定理）和变种（高斯/多项式/伯努利）是灵活应用的关键。

2025-04-16 00:41:44 1092

原创机器学习（5）——支持向量机

SVM 核心：最大化间隔的超平面，支持核方法处理非线性。关键参数：正则化参数CCC。核函数类型（RBF/线性/多项式）。RBF 核的γγγ。适用场景：中小规模高维数据（如文本分类、图像识别）。需强泛化能力的分类任务。

2025-04-14 00:03:29 1723

原创机器学习（4）—— K近邻算法

给定一个待分类（或回归）的数据点，找到训练集中距离该数据点最近的K个邻居，然后通过这些邻居的标签（分类问题）或数值（回归问题）来预测该数据点的标签或数值。：待预测样本的类别由其K个最近邻居的**多数投票（Majority Voting）**决定。”，通过计算待预测样本与训练样本的距离，找到最近的K个邻居，基于这些邻居的标签进行预测。计算待分类点与所有训练集点之间的距离，常用的距离度量包括欧几里得距离、曼哈顿距离等。：计算样本间距离的方法（如欧氏距离、曼哈顿距离）。：选择最近的K个邻居（影响模型复杂度）。

2025-04-12 17:58:28 1076

爬虫.zip，一个包含很多爬取方法的压缩包

空空如也