如意鼠-优快云博客

原创大模型教我成为大模型算法工程师之day25：语音识别 (ASR)

asr

2025-12-25 14:59:43 1154

原创大模型教我成为大模型算法工程师之day24：知识图谱与推理

摘要：知识图谱(KG)作为结构化知识库，通过三元组存储实体间关系，与深度学习结合可缓解大模型幻觉问题。文章系统介绍了KG构建方法（实体识别、关系抽取）、知识表示学习（TransE、RotatE等嵌入算法），以及KG在知识问答和增强大模型（GraphRAG）中的应用。通过PyTorch实现TransE的代码示例展示了知识嵌入的核心思想。KG与LLM的互补结合成为趋势，KG提供精确领域知识，LLM处理通用语言任务。最后指出KG适合存储静态核心知识，而动态常识更适合由LLM参数化存储。（150字）

2025-12-25 14:56:43 613

原创大模型教我成为大模型算法工程师之day23：机器翻译与序列建模

摘要：本文探讨了机器翻译从统计方法到神经网络的演进历程。核心介绍了Seq2Seq+Attention架构如何解决传统翻译的信息瓶颈问题，重点分析了Transformer和多语言模型(mBERT/XLM-R)的技术原理。文章还讨论了机器翻译面临的词表爆炸、低资源语言等挑战，以及BLEU等评估指标的局限性。最后通过MarianMT的代码示例展示了现代翻译模型的实现方式，并指出大语言模型在语境理解上的优势正在改变翻译领域格局。

2025-12-21 15:43:08 554

原创大模型教我成为大模型算法工程师之day22：文本生成技术 (Text Generation)

本文深入解析了文本生成技术中的解码策略。首先介绍了确定性解码方法，包括贪婪搜索（易错过全局最优）和集束搜索（多路径但易重复）。然后重点讲解了随机采样解码，如Top-k（固定候选词数）和Top-p（动态调整候选词）采样，后者通过概率阈值动态优化生成质量。文章还澄清了长度控制参数（max_new_tokens优于max_length），并比较了不同任务的最佳策略：翻译/摘要用集束搜索求稳，聊天/创作用Top-p采样求趣。最后指出概率模型的本质导致ChatGPT可能产生"幻觉"问题。

2025-12-21 15:40:37 769

原创大模型教我成为大模型算法工程师之day21：NLP 核心任务

摘要：本文介绍了NLP三大核心任务及其BERT解决方案。文本分类通过[CLS]标记和线性层实现；命名实体识别(NER)采用序列标注方式处理；问答系统预测答案起止位置。关系抽取采用"NER+分类"两步法。实践部分展示如何用HuggingFace微调BERT进行情感分析，体现了"预训练+微调"范式的优势。最后讨论了长文本处理策略，包括截断、滑动窗口和使用Longformer等扩展模型。

2025-12-20 13:03:51 714

原创大模型教我成为大模型算法工程师之day20：预训练语言模型 (Pre-trained Language Models)

摘要：预训练语言模型从ELMo开始突破静态词向量限制，通过上下文动态生成词向量。BERT采用双向Transformer架构和MLM任务，在理解类任务上表现卓越；GPT系列坚持单向Decoder结构，专注生成任务并最终引领大模型时代。T5尝试统一NLP任务为文本生成格式。当前实践可通过HuggingFace快速调用预训练模型。BERT虽开创先河，但GPT的自回归特性在数据规模扩大后展现出更强泛化能力，成为LLM主流选择。明日将探讨如何将这些模型应用于具体NLP任务。

2025-12-20 13:00:44 1202

原创大模型教我成为大模型算法工程师之day19： NLP 基础与词表示

摘要：本文介绍了自然语言处理(NLP)中的文本向量化技术演进历程。从传统的One-Hot编码（高维稀疏、语义缺失）到分布式词嵌入(Word Embedding)，重点讲解了Word2Vec的两种训练模式(CBOW和Skip-Gram)及其负采样优化技术。随后探讨了从单词级到子词级(Subword)的分词进化，特别是BPE算法如何解决未登录词问题。文章还概述了文本预处理的标准流程，并展示了PyTorch中Embedding层的实现代码。最后指出静态词向量的局限性，为后续动态词向量模型(如BERT)做铺垫。

2025-12-18 22:08:29 1257

原创大模型教我成为大模型算法工程师之day18：视觉自监督与多模态

ssl和多模态

2025-12-18 22:04:21 655

原创大模型教我成为大模型算法工程师之day17：扩散模型 (Diffusion Models)

摘要：扩散模型(Diffusion Models)是AIGC革命的核心技术，通过模拟物理扩散过程实现高质量图像生成。相比GAN和VAE，它突破了生成领域的"不可能三角"，兼具高质量、多样性和训练稳定性。DDPM模型通过前向加噪和逆向去噪过程，以回归任务训练U-Net预测噪声。Stable Diffusion创新性地引入潜在空间(Latent Space)，将扩散过程压缩到64x64维度，结合CLIP文本编码实现文本到图像的转换。

2025-12-17 23:38:31 1156

原创大模型教我成为大模型算法工程师之day16：生成模型基础

aigc

2025-12-17 23:33:16 427

原创大模型教我成为大模型算法工程师之day15：图像分割 (Image Segmentation)

摘要：图像分割是计算机视觉中的像素级分类任务，主要分为语义分割（区分类别）、实例分割（区分个体）和全景分割（结合两者）。经典模型包括FCN（全卷积网络）、U-Net（医学影像霸主，采用跳跃连接）和DeepLab（引入空洞卷积解决多尺度问题）。Mask R-CNN在实例分割中结合检测与分割，通过RoI Align实现精准对齐。2023年Meta发布的SAM模型革新了分割领域，采用轻-重分离架构和提示交互范式，具备强大的零样本能力，大幅降低标注成本。代码示例展示了PyTorch实现U-Net的核心结构。

2025-12-16 20:12:07 663

原创大模型教我成为大模型算法工程师之day14：目标检测 (Object Detection)

目标检测技术综述：本文系统梳理了目标检测的核心概念与技术演进。重点解析了IoU、NMS和Anchor三大基础概念，对比了Faster R-CNN（两阶段检测）与YOLO（单阶段检测）的技术差异：前者通过RPN筛选候选框再精修，后者采用网格划分直接回归。同时介绍了FPN多尺度特征融合方法，以及包含分类、置信度和边界框回归的复合损失函数。文章还提供了IoU计算的代码实现，完整呈现了从传统方法到现代深度学习的目标检测技术体系。

2025-12-16 20:09:09 908

原创大模型教我成为大模型算法工程师之day13：图像分类与 Vision Transformer (ViT)

摘要：本文深入解析了Vision Transformer (ViT)及其改进版Swin Transformer的核心原理。ViT通过将图像分割为16×16的块序列，采用纯Transformer架构实现图像分类，打破了CNN在计算机视觉的垄断地位。Swin Transformer引入窗口注意力和移动窗口机制，显著降低了计算复杂度。文章还介绍了MixUp、CutMix等现代数据增强技术对ViT训练的关键作用，以及知识蒸馏的应用原理。最后提供了MixUp的PyTorch实现代码，展现了Transformer在CV

2025-12-15 16:22:14 698

原创大模型教我成为大模型算法工程师之day12：深度学习框架与工程实践

摘要：本文深入探讨深度学习工程实践中的关键技术。首先解析PyTorch核心机制，包括Autograd自动求导系统和nn.Module参数管理。重点介绍混合精度训练(AMP)原理与实现，通过Loss Scaling解决FP16下溢问题。同时讲解梯度检查点和梯度累积等显存优化技术，以及训练监控工具(WandB/TensorBoard)和性能分析方法。这些工程技术能显著提升训练效率，帮助开发者从小规模实验过渡到大规模生产环境应用。

2025-12-15 16:17:45 570

原创大模型教我成为大模型算法工程师之day11：Transformer 架构

Transformer架构彻底革新了深度学习，通过完全依赖注意力机制取代RNN循环结构，解决了并行计算和长距离依赖问题。其核心是自注意力机制，通过Q、K、V三个向量实现词语间的动态关注。多头注意力则从不同角度理解输入，位置编码弥补了并行输入丢失的顺序信息。整体采用编码器-解码器架构，编码器提取特征，解码器生成输出时使用掩码自注意力防止信息泄漏。该架构通过堆叠多层实现了"反复思考"的效果，为NLP领域带来革命性突破。

2025-12-14 13:53:38 1466

原创大模型教我成为大模型算法工程师之day10：循环神经网络 (RNN)

摘要：循环神经网络(RNN)通过引入时间维度的记忆机制处理序列数据，但存在梯度消失问题。LSTM通过遗忘门、输入门和输出门控制信息流动，利用细胞状态(Cell State)实现长距离依赖。GRU作为简化版，合并状态和门控机制，提升效率。双向RNN同时考虑上下文信息，而Seq2Seq架构为机器翻译奠定基础。虽然Transformer主导NLP领域，但LSTM/GRU在小模型和实时计算中仍具优势。本文详解RNN原理、LSTM/GRU门控机制及代码实现，帮助理解序列建模核心思想。

2025-12-14 13:46:39 822

原创大模型教我成为大模型算法工程师之day9：卷积神经网络 (CNN)

摘要：卷积神经网络(CNN)是计算机视觉的核心技术，通过局部感受野和权值共享解决MLP的参数爆炸问题。核心组件包括卷积层(特征提取)、池化层(降采样)和1x1卷积(通道调整)。经典架构演进从LeNet确立范式，到AlexNet复兴深度学习，VGG提出3x3小卷积堆叠，ResNet引入残差连接解决梯度消失，再到MobileNet的高效深度可分离卷积。现代ConvNeXt借鉴Transformer优势，证明CNN仍具竞争力。CNN凭借高效特征提取和边缘计算优势，在实时应用中保持不可替代地位。

2025-12-13 21:21:01 708

原创大模型教我成为大模型算法工程师之day8：优化器与训练技巧

本文系统介绍了深度学习模型训练中的优化器演进与关键技术。从基础SGD到Momentum、Adam/AdamW优化器的原理对比，解析了学习率调度策略（Warmup和余弦退火）的重要性。深入讲解了归一化技术（BN/LN/RMSNorm）的作用机制及适用场景，并阐述了Dropout、Weight Decay等正则化方法的原理。文章通过形象类比和代码示例，帮助读者理解这些"炼丹"技巧如何协同提升模型训练效果，为CV/NLP任务提供实用指导。

2025-12-13 01:05:19 751

原创大模型教我成为大模型算法工程师之day7：神经网络基础

本文介绍了深度学习的基础知识，重点解析了神经网络的核心模块。从感知机到多层感知机(MLP)，阐述了非线性激活函数的重要性，对比分析了Sigmoid、ReLU、GELU等不同激活函数的特性。详细讲解了回归和分类任务中的损失函数设计，包括MSE、交叉熵和Focal Loss等。通过计算图和链式法则解释了反向传播机制，并提供了PyTorch实现MLP的代码示例。文章为深度学习入门提供了系统性的知识框架，涵盖神经网络的基础理论、关键组件和实际应用。

2025-12-11 23:57:44 1012

原创大模型教我成为大模型算法工程师之day6：概率图模型

本文介绍了概率图模型(PGM)这一结合概率论与图论的工具，用于处理不确定性世界中的复杂关系。主要内容包括：1) 概率图模型分为有向(贝叶斯网络)和无向(马尔可夫随机场)两类；2) 贝叶斯网络通过有向无环图表达因果关系；3) 马尔可夫随机场通过无向图表达相关关系；4) 隐马尔可夫模型(HMM)处理时序数据，包含状态序列和观测序列；5) 条件随机场(CRF)解决了HMM的局限性，在序列标注任务中表现优异。最后通过Python代码展示了HMM在股市预测中的应用。尽管深度学习兴起，PGM的思想仍是理解序列建模的重要

2025-12-10 15:45:13 378

原创大模型教我成为大模型算法工程师之day5：降维与表示学习

本文聚焦高维数据面临的 “维度灾难” 问题，系统梳理了降维与表示学习的核心方法：从经典线性降维的 PCA（无监督、保全局方差）与 LDA（有监督、强分类区分度），到适配非线性数据的流形学习工具 t-SNE（优可视化）与 UMAP（快且保全局结构），再到基于神经网络的自编码器 / 变分自编码器（复杂数据压缩）和前沿的对比学习（无监督特征学习）。文末结合手写数字数据集实战，对比各类算法效果并给出选型建议，为高维数据处理提供了清晰的技术框架。

2025-12-09 16:10:37 875

原创大模型教我成为大模型算法工程师之day4：特征工程与模型评估

本文探讨了机器学习中的特征工程与模型评估方法。特征工程包括特征构建、提取/变换和选择三个关键环节，其中特征选择可采用过滤法、包裹法或嵌入法。特征变换涉及无量纲化、离散化和类别编码等技术。模型评估方面，分类问题常用准确率、精确率、召回率、F1-Score和AUC-ROC指标，回归问题则采用MSE、RMSE、MAE和R² Score。文章还介绍了交叉验证和超参数调优策略，并通过Python代码展示了完整的特征处理到模型评估流程。

2025-12-08 16:43:07 678

原创大模型教我成为大模型算法工程师之day3：传统机器学习算法（下）

本篇博客作为传统机器学习算法系列的第三天内容，既深入讲解了以偏差-方差权衡为核心的集成学习（包括Bagging、Boosting等策略及XGBoost、LightGBM、CatBoost三大GBDT算法并附XGBoost实战代码），又介绍了K-means、DBSCAN、层次聚类等无监督聚类算法的原理、优劣与基础实现，同时给出了不同机器学习任务的算法选型建议，阐明了传统机器学习在表格数据处理、小样本场景适配及可解释性方面相较于深度学习的独特优势，并预告次日将聚焦特征工程相关内容。

2025-12-07 17:02:20 1006

原创 [大模型教我成为大模型算法工程师之day2：传统机器学习算法（上）]

本文介绍了四种经典机器学习算法：线性模型（线性回归和逻辑回归）、朴素贝叶斯、决策树与随机森林、支持向量机(SVM)。线性模型是基础，逻辑回归用于分类；朴素贝叶斯基于概率且高效；决策树通过规则分类，随机森林通过集成提升性能；SVM追求最大间隔分类边界，可处理非线性数据。文章比较了各算法优缺点，并给出实战建议：逻辑回归适合基线模型，随机森林适合表格数据，SVM适合小样本高维数据。最后强调特征工程的重要性超过算法选择。

2025-12-06 20:47:20 696

原创 [大模型教我成为大模型算法工程师之day1：机器学习数学基础]

本文介绍了机器学习中必备的数学基础，重点聚焦于线性代数和概率统计两大核心内容。在线性代数部分，阐述了向量、矩阵的本质及其在机器学习中的应用，包括特征值分解、SVD等矩阵分解方法及其实际应用场景。概率论部分则强调了其在处理不确定性中的重要性，涵盖了基本概率概念和统计方法。文章采用直观解释与代码示例相结合的方式，帮助读者建立数学直觉，理解这些数学工具如何支撑机器学习算法。通过掌握这些基础知识，读者可以更好地理解数据在高维空间中的表示与变换。

2025-12-05 23:22:59 941

原创 26备战秋招day19——VIT

vit

2025-03-10 22:55:58 1467

原创 26备战秋招day18——hugging face

Hugging Face 最初是一个聊天机器人项目，随着时间的推移，逐渐发展成为一个强大的。

2024-12-10 22:55:32 985

原创 java基础06

抽象类是不能被实例化的类，它通常作为其他类的基类，提供了一个共同的模板。抽象类可以包含抽象方法和具体方法。

2024-12-10 22:12:21 390

原创 26备战秋招day17——机器学习基础

机器学习入门指南》详细介绍了六种常见的监督学习算法，包括线性回归、逻辑回归、决策树、KNN、SVM和神经网络。每个算法部分解释其基本原理、数学公式，并提供简单的Python代码示例，帮助初学者理解和实践。最后，文章给出学习建议，助力读者建立坚实的机器学习基础。

2024-12-08 21:08:45 1074

原创 Java基础05

继承是面向对象编程中的一种机制，允许一个类（子类）继承另一个类（父类）的属性和方法。通过继承，子类可以重用父类的代码，增强代码的复用性和可维护性。此外，继承还支持多层次的类层次结构，便于组织和管理代码。子类重新定义父类中已经存在的方法，以改变或扩展其行为。方法签名（方法名和参数列表）必须相同，返回类型可以相同或是其子类型。它允许对象以父类的引用来调用子类重写的方法，从而实现动态绑定。在同一个类中，可以定义多个方法名相同但参数列表不同的方法。如何在Java中使用它？关键字继承父类，从而获得父类的属性和方法。

2024-12-08 20:23:15 466

原创 26备战秋招day17——llama

Llama（Large Language Model Meta AI）是 Meta 推出的高效大规模语言模型，基于 Transformer 架构，广泛应用于文本生成、对话系统等任务。Llama 模型采用了 decoder-only 架构，训练使用了海量文本数据。本文介绍了 Llama 的架构、训练过程，并详细说明了如何通过 Hugging Face 使用 Llama 模型进行文本生成、问答等 NLP 任务。

2024-12-07 14:51:43 1114

原创 Java基础04

类是定义对象的模板，对象是类的实例。构造函数用于初始化对象的属性。**this**用来引用当前对象的属性或方法。**super**用来访问父类的构造函数或成员。成员变量和成员方法定义了对象的状态和行为。通过这些知识，你可以开始理解如何创建和操作类与对象，并能编写简单的面向对象程序。如果你希望了解更多关于算法和力扣刷题的知识，欢迎关注微信公众号【算法最TOP】！

2024-12-07 13:20:23 465

原创 26备战秋招day16——大模型

这篇博客详细介绍了大规模语言模型（LLM）的训练流程，包括预训练、指令微调、奖励模型（RM）和强化学习（RLHF）。预训练阶段通过大量文本数据学习语言结构，指令微调使模型能根据具体任务生成响应。奖励模型评估生成质量，而强化学习进一步优化模型生成策略。各个阶段结合起来，逐步提升模型的任务执行能力，使其能够生成高质量的、符合人类期望的输出。

2024-12-06 13:03:47 1170

原创 java基础03

这一天的学习内容主要是字符串操作与集合框架的基础，掌握了字符串的常用方法和集合的各种实现类，能帮助我们高效地处理和操作数据。无论是在实际开发中还是面试中，这些知识点都是常见且必备的基础。希望通过本篇博客，你能更清晰地了解和掌握这些基础知识！如果你希望了解更多关于算法和力扣刷题的知识，欢迎关注微信公众号【算法最TOP】！

2024-12-06 10:13:05 671

原创 26备战秋招day15——pytorch常见操作

pytorch常见操作

2024-12-05 11:17:59 861

原创 java基础02

是一种面向对象的编程语言，具有平台独立性，广泛应用于Web开发、移动应用、桌面应用等领域。Java程序通过Java虚拟机（JVM）实现跨平台运行。以上是Java基础语法的核心概念，通过问答的形式进行了详细解答。掌握这些基础知识是学习Java的第一步，建议在实践中不断加深理解。数组的大小在创建时确定，可以通过索引访问。方法是执行一段逻辑的代码块，定义包括返回类型、方法名、参数列表和方法体。是存储数据的容器，声明时指定类型和变量名，并可赋予初始值。常量是值不可变的变量。机制处理异常，保证程序的正常运行。

2024-12-05 11:00:26 742

空空如也

空空如也