- 博客(65)
- 收藏
- 关注
原创 大模型教我成为大模型算法工程师之day24:知识图谱与推理
摘要:知识图谱(KG)作为结构化知识库,通过三元组存储实体间关系,与深度学习结合可缓解大模型幻觉问题。文章系统介绍了KG构建方法(实体识别、关系抽取)、知识表示学习(TransE、RotatE等嵌入算法),以及KG在知识问答和增强大模型(GraphRAG)中的应用。通过PyTorch实现TransE的代码示例展示了知识嵌入的核心思想。KG与LLM的互补结合成为趋势,KG提供精确领域知识,LLM处理通用语言任务。最后指出KG适合存储静态核心知识,而动态常识更适合由LLM参数化存储。(150字)
2025-12-25 14:56:43
613
原创 大模型教我成为大模型算法工程师之day23: 机器翻译与序列建模
摘要:本文探讨了机器翻译从统计方法到神经网络的演进历程。核心介绍了Seq2Seq+Attention架构如何解决传统翻译的信息瓶颈问题,重点分析了Transformer和多语言模型(mBERT/XLM-R)的技术原理。文章还讨论了机器翻译面临的词表爆炸、低资源语言等挑战,以及BLEU等评估指标的局限性。最后通过MarianMT的代码示例展示了现代翻译模型的实现方式,并指出大语言模型在语境理解上的优势正在改变翻译领域格局。
2025-12-21 15:43:08
554
原创 大模型教我成为大模型算法工程师之day22:文本生成技术 (Text Generation)
本文深入解析了文本生成技术中的解码策略。首先介绍了确定性解码方法,包括贪婪搜索(易错过全局最优)和集束搜索(多路径但易重复)。然后重点讲解了随机采样解码,如Top-k(固定候选词数)和Top-p(动态调整候选词)采样,后者通过概率阈值动态优化生成质量。文章还澄清了长度控制参数(max_new_tokens优于max_length),并比较了不同任务的最佳策略:翻译/摘要用集束搜索求稳,聊天/创作用Top-p采样求趣。最后指出概率模型的本质导致ChatGPT可能产生"幻觉"问题。
2025-12-21 15:40:37
769
原创 大模型教我成为大模型算法工程师之day21:NLP 核心任务
摘要:本文介绍了NLP三大核心任务及其BERT解决方案。文本分类通过[CLS]标记和线性层实现;命名实体识别(NER)采用序列标注方式处理;问答系统预测答案起止位置。关系抽取采用"NER+分类"两步法。实践部分展示如何用HuggingFace微调BERT进行情感分析,体现了"预训练+微调"范式的优势。最后讨论了长文本处理策略,包括截断、滑动窗口和使用Longformer等扩展模型。
2025-12-20 13:03:51
714
原创 大模型教我成为大模型算法工程师之day20: 预训练语言模型 (Pre-trained Language Models)
摘要:预训练语言模型从ELMo开始突破静态词向量限制,通过上下文动态生成词向量。BERT采用双向Transformer架构和MLM任务,在理解类任务上表现卓越;GPT系列坚持单向Decoder结构,专注生成任务并最终引领大模型时代。T5尝试统一NLP任务为文本生成格式。当前实践可通过HuggingFace快速调用预训练模型。BERT虽开创先河,但GPT的自回归特性在数据规模扩大后展现出更强泛化能力,成为LLM主流选择。明日将探讨如何将这些模型应用于具体NLP任务。
2025-12-20 13:00:44
1202
原创 大模型教我成为大模型算法工程师之day19: NLP 基础与词表示
摘要:本文介绍了自然语言处理(NLP)中的文本向量化技术演进历程。从传统的One-Hot编码(高维稀疏、语义缺失)到分布式词嵌入(Word Embedding),重点讲解了Word2Vec的两种训练模式(CBOW和Skip-Gram)及其负采样优化技术。随后探讨了从单词级到子词级(Subword)的分词进化,特别是BPE算法如何解决未登录词问题。文章还概述了文本预处理的标准流程,并展示了PyTorch中Embedding层的实现代码。最后指出静态词向量的局限性,为后续动态词向量模型(如BERT)做铺垫。
2025-12-18 22:08:29
1257
原创 大模型教我成为大模型算法工程师之day17: 扩散模型 (Diffusion Models)
摘要:扩散模型(Diffusion Models)是AIGC革命的核心技术,通过模拟物理扩散过程实现高质量图像生成。相比GAN和VAE,它突破了生成领域的"不可能三角",兼具高质量、多样性和训练稳定性。DDPM模型通过前向加噪和逆向去噪过程,以回归任务训练U-Net预测噪声。Stable Diffusion创新性地引入潜在空间(Latent Space),将扩散过程压缩到64x64维度,结合CLIP文本编码实现文本到图像的转换。
2025-12-17 23:38:31
1156
原创 大模型教我成为大模型算法工程师之day15: 图像分割 (Image Segmentation)
摘要:图像分割是计算机视觉中的像素级分类任务,主要分为语义分割(区分类别)、实例分割(区分个体)和全景分割(结合两者)。经典模型包括FCN(全卷积网络)、U-Net(医学影像霸主,采用跳跃连接)和DeepLab(引入空洞卷积解决多尺度问题)。Mask R-CNN在实例分割中结合检测与分割,通过RoI Align实现精准对齐。2023年Meta发布的SAM模型革新了分割领域,采用轻-重分离架构和提示交互范式,具备强大的零样本能力,大幅降低标注成本。代码示例展示了PyTorch实现U-Net的核心结构。
2025-12-16 20:12:07
663
原创 大模型教我成为大模型算法工程师之day14: 目标检测 (Object Detection)
目标检测技术综述:本文系统梳理了目标检测的核心概念与技术演进。重点解析了IoU、NMS和Anchor三大基础概念,对比了Faster R-CNN(两阶段检测)与YOLO(单阶段检测)的技术差异:前者通过RPN筛选候选框再精修,后者采用网格划分直接回归。同时介绍了FPN多尺度特征融合方法,以及包含分类、置信度和边界框回归的复合损失函数。文章还提供了IoU计算的代码实现,完整呈现了从传统方法到现代深度学习的目标检测技术体系。
2025-12-16 20:09:09
908
原创 大模型教我成为大模型算法工程师之day13:图像分类与 Vision Transformer (ViT)
摘要:本文深入解析了Vision Transformer (ViT)及其改进版Swin Transformer的核心原理。ViT通过将图像分割为16×16的块序列,采用纯Transformer架构实现图像分类,打破了CNN在计算机视觉的垄断地位。Swin Transformer引入窗口注意力和移动窗口机制,显著降低了计算复杂度。文章还介绍了MixUp、CutMix等现代数据增强技术对ViT训练的关键作用,以及知识蒸馏的应用原理。最后提供了MixUp的PyTorch实现代码,展现了Transformer在CV
2025-12-15 16:22:14
698
原创 大模型教我成为大模型算法工程师之day12:深度学习框架与工程实践
摘要:本文深入探讨深度学习工程实践中的关键技术。首先解析PyTorch核心机制,包括Autograd自动求导系统和nn.Module参数管理。重点介绍混合精度训练(AMP)原理与实现,通过Loss Scaling解决FP16下溢问题。同时讲解梯度检查点和梯度累积等显存优化技术,以及训练监控工具(WandB/TensorBoard)和性能分析方法。这些工程技术能显著提升训练效率,帮助开发者从小规模实验过渡到大规模生产环境应用。
2025-12-15 16:17:45
570
原创 大模型教我成为大模型算法工程师之day11:Transformer 架构
Transformer架构彻底革新了深度学习,通过完全依赖注意力机制取代RNN循环结构,解决了并行计算和长距离依赖问题。其核心是自注意力机制,通过Q、K、V三个向量实现词语间的动态关注。多头注意力则从不同角度理解输入,位置编码弥补了并行输入丢失的顺序信息。整体采用编码器-解码器架构,编码器提取特征,解码器生成输出时使用掩码自注意力防止信息泄漏。该架构通过堆叠多层实现了"反复思考"的效果,为NLP领域带来革命性突破。
2025-12-14 13:53:38
1466
原创 大模型教我成为大模型算法工程师之day10:循环神经网络 (RNN)
摘要:循环神经网络(RNN)通过引入时间维度的记忆机制处理序列数据,但存在梯度消失问题。LSTM通过遗忘门、输入门和输出门控制信息流动,利用细胞状态(Cell State)实现长距离依赖。GRU作为简化版,合并状态和门控机制,提升效率。双向RNN同时考虑上下文信息,而Seq2Seq架构为机器翻译奠定基础。虽然Transformer主导NLP领域,但LSTM/GRU在小模型和实时计算中仍具优势。本文详解RNN原理、LSTM/GRU门控机制及代码实现,帮助理解序列建模核心思想。
2025-12-14 13:46:39
822
原创 大模型教我成为大模型算法工程师之day9:卷积神经网络 (CNN)
摘要:卷积神经网络(CNN)是计算机视觉的核心技术,通过局部感受野和权值共享解决MLP的参数爆炸问题。核心组件包括卷积层(特征提取)、池化层(降采样)和1x1卷积(通道调整)。经典架构演进从LeNet确立范式,到AlexNet复兴深度学习,VGG提出3x3小卷积堆叠,ResNet引入残差连接解决梯度消失,再到MobileNet的高效深度可分离卷积。现代ConvNeXt借鉴Transformer优势,证明CNN仍具竞争力。CNN凭借高效特征提取和边缘计算优势,在实时应用中保持不可替代地位。
2025-12-13 21:21:01
708
原创 大模型教我成为大模型算法工程师之day8: 优化器与训练技巧
本文系统介绍了深度学习模型训练中的优化器演进与关键技术。从基础SGD到Momentum、Adam/AdamW优化器的原理对比,解析了学习率调度策略(Warmup和余弦退火)的重要性。深入讲解了归一化技术(BN/LN/RMSNorm)的作用机制及适用场景,并阐述了Dropout、Weight Decay等正则化方法的原理。文章通过形象类比和代码示例,帮助读者理解这些"炼丹"技巧如何协同提升模型训练效果,为CV/NLP任务提供实用指导。
2025-12-13 01:05:19
751
原创 大模型教我成为大模型算法工程师之day7:神经网络基础
本文介绍了深度学习的基础知识,重点解析了神经网络的核心模块。从感知机到多层感知机(MLP),阐述了非线性激活函数的重要性,对比分析了Sigmoid、ReLU、GELU等不同激活函数的特性。详细讲解了回归和分类任务中的损失函数设计,包括MSE、交叉熵和Focal Loss等。通过计算图和链式法则解释了反向传播机制,并提供了PyTorch实现MLP的代码示例。文章为深度学习入门提供了系统性的知识框架,涵盖神经网络的基础理论、关键组件和实际应用。
2025-12-11 23:57:44
1012
原创 大模型教我成为大模型算法工程师之day6:概率图模型
本文介绍了概率图模型(PGM)这一结合概率论与图论的工具,用于处理不确定性世界中的复杂关系。主要内容包括:1) 概率图模型分为有向(贝叶斯网络)和无向(马尔可夫随机场)两类;2) 贝叶斯网络通过有向无环图表达因果关系;3) 马尔可夫随机场通过无向图表达相关关系;4) 隐马尔可夫模型(HMM)处理时序数据,包含状态序列和观测序列;5) 条件随机场(CRF)解决了HMM的局限性,在序列标注任务中表现优异。最后通过Python代码展示了HMM在股市预测中的应用。尽管深度学习兴起,PGM的思想仍是理解序列建模的重要
2025-12-10 15:45:13
378
原创 大模型教我成为大模型算法工程师之day5:降维与表示学习
本文聚焦高维数据面临的 “维度灾难” 问题,系统梳理了降维与表示学习的核心方法:从经典线性降维的 PCA(无监督、保全局方差)与 LDA(有监督、强分类区分度),到适配非线性数据的流形学习工具 t-SNE(优可视化)与 UMAP(快且保全局结构),再到基于神经网络的自编码器 / 变分自编码器(复杂数据压缩)和前沿的对比学习(无监督特征学习)。文末结合手写数字数据集实战,对比各类算法效果并给出选型建议,为高维数据处理提供了清晰的技术框架。
2025-12-09 16:10:37
875
原创 大模型教我成为大模型算法工程师之day4:特征工程与模型评估
本文探讨了机器学习中的特征工程与模型评估方法。特征工程包括特征构建、提取/变换和选择三个关键环节,其中特征选择可采用过滤法、包裹法或嵌入法。特征变换涉及无量纲化、离散化和类别编码等技术。模型评估方面,分类问题常用准确率、精确率、召回率、F1-Score和AUC-ROC指标,回归问题则采用MSE、RMSE、MAE和R² Score。文章还介绍了交叉验证和超参数调优策略,并通过Python代码展示了完整的特征处理到模型评估流程。
2025-12-08 16:43:07
678
原创 大模型教我成为大模型算法工程师之day3:传统机器学习算法(下)
本篇博客作为传统机器学习算法系列的第三天内容,既深入讲解了以偏差-方差权衡为核心的集成学习(包括Bagging、Boosting等策略及XGBoost、LightGBM、CatBoost三大GBDT算法并附XGBoost实战代码),又介绍了K-means、DBSCAN、层次聚类等无监督聚类算法的原理、优劣与基础实现,同时给出了不同机器学习任务的算法选型建议,阐明了传统机器学习在表格数据处理、小样本场景适配及可解释性方面相较于深度学习的独特优势,并预告次日将聚焦特征工程相关内容。
2025-12-07 17:02:20
1006
原创 [大模型教我成为大模型算法工程师之day2:传统机器学习算法(上)]
本文介绍了四种经典机器学习算法:线性模型(线性回归和逻辑回归)、朴素贝叶斯、决策树与随机森林、支持向量机(SVM)。线性模型是基础,逻辑回归用于分类;朴素贝叶斯基于概率且高效;决策树通过规则分类,随机森林通过集成提升性能;SVM追求最大间隔分类边界,可处理非线性数据。文章比较了各算法优缺点,并给出实战建议:逻辑回归适合基线模型,随机森林适合表格数据,SVM适合小样本高维数据。最后强调特征工程的重要性超过算法选择。
2025-12-06 20:47:20
696
原创 [大模型教我成为大模型算法工程师之day1:机器学习数学基础]
本文介绍了机器学习中必备的数学基础,重点聚焦于线性代数和概率统计两大核心内容。在线性代数部分,阐述了向量、矩阵的本质及其在机器学习中的应用,包括特征值分解、SVD等矩阵分解方法及其实际应用场景。概率论部分则强调了其在处理不确定性中的重要性,涵盖了基本概率概念和统计方法。文章采用直观解释与代码示例相结合的方式,帮助读者建立数学直觉,理解这些数学工具如何支撑机器学习算法。通过掌握这些基础知识,读者可以更好地理解数据在高维空间中的表示与变换。
2025-12-05 23:22:59
941
原创 26备战秋招day17——机器学习基础
机器学习入门指南》详细介绍了六种常见的监督学习算法,包括线性回归、逻辑回归、决策树、KNN、SVM和神经网络。每个算法部分解释其基本原理、数学公式,并提供简单的Python代码示例,帮助初学者理解和实践。最后,文章给出学习建议,助力读者建立坚实的机器学习基础。
2024-12-08 21:08:45
1074
原创 Java基础05
继承是面向对象编程中的一种机制,允许一个类(子类)继承另一个类(父类)的属性和方法。通过继承,子类可以重用父类的代码,增强代码的复用性和可维护性。此外,继承还支持多层次的类层次结构,便于组织和管理代码。子类重新定义父类中已经存在的方法,以改变或扩展其行为。方法签名(方法名和参数列表)必须相同,返回类型可以相同或是其子类型。它允许对象以父类的引用来调用子类重写的方法,从而实现动态绑定。在同一个类中,可以定义多个方法名相同但参数列表不同的方法。如何在Java中使用它?关键字继承父类,从而获得父类的属性和方法。
2024-12-08 20:23:15
466
原创 26备战秋招day17——llama
Llama(Large Language Model Meta AI)是 Meta 推出的高效大规模语言模型,基于 Transformer 架构,广泛应用于文本生成、对话系统等任务。Llama 模型采用了 decoder-only 架构,训练使用了海量文本数据。本文介绍了 Llama 的架构、训练过程,并详细说明了如何通过 Hugging Face 使用 Llama 模型进行文本生成、问答等 NLP 任务。
2024-12-07 14:51:43
1114
原创 Java基础04
类是定义对象的模板,对象是类的实例。构造函数用于初始化对象的属性。**this**用来引用当前对象的属性或方法。**super**用来访问父类的构造函数或成员。成员变量和成员方法定义了对象的状态和行为。通过这些知识,你可以开始理解如何创建和操作类与对象,并能编写简单的面向对象程序。如果你希望了解更多关于算法和力扣刷题的知识,欢迎关注微信公众号【算法最TOP】!
2024-12-07 13:20:23
465
原创 26备战秋招day16——大模型
这篇博客详细介绍了大规模语言模型(LLM)的训练流程,包括预训练、指令微调、奖励模型(RM)和强化学习(RLHF)。预训练阶段通过大量文本数据学习语言结构,指令微调使模型能根据具体任务生成响应。奖励模型评估生成质量,而强化学习进一步优化模型生成策略。各个阶段结合起来,逐步提升模型的任务执行能力,使其能够生成高质量的、符合人类期望的输出。
2024-12-06 13:03:47
1170
原创 java基础03
这一天的学习内容主要是字符串操作与集合框架的基础,掌握了字符串的常用方法和集合的各种实现类,能帮助我们高效地处理和操作数据。无论是在实际开发中还是面试中,这些知识点都是常见且必备的基础。希望通过本篇博客,你能更清晰地了解和掌握这些基础知识!如果你希望了解更多关于算法和力扣刷题的知识,欢迎关注微信公众号【算法最TOP】!
2024-12-06 10:13:05
671
原创 java基础02
是一种面向对象的编程语言,具有平台独立性,广泛应用于Web开发、移动应用、桌面应用等领域。Java程序通过Java虚拟机(JVM)实现跨平台运行。以上是Java基础语法的核心概念,通过问答的形式进行了详细解答。掌握这些基础知识是学习Java的第一步,建议在实践中不断加深理解。数组的大小在创建时确定,可以通过索引访问。方法是执行一段逻辑的代码块,定义包括返回类型、方法名、参数列表和方法体。是存储数据的容器,声明时指定类型和变量名,并可赋予初始值。常量是值不可变的变量。机制处理异常,保证程序的正常运行。
2024-12-05 11:00:26
742
原创 26备战秋招day14——大语言模型概述
大语言模型(LLMs)是自然语言处理的核心技术,通过Transformer架构和预训练策略,能够高效理解与生成文本。它们在智能对话、翻译、文本生成等领域表现出色,但仍面临计算资源、偏见和可解释性等挑战。未来,LLMs将推动NLP技术进一步发展,扩展到多模态学习和复杂任务。
2024-12-04 16:03:20
863
原创 26备战秋招day13——transformer
本文深入解析了Transformer模型的核心组件及其实现。首先介绍了Transformer的基本结构,包括编码器和解码器,并详细解释了自注意力机制(Self-Attention)及其计算过程。接着,介绍了多头自注意力机制,通过并行执行多个自注意力层来学习不同的关系,并提供了代码实现。文章还讲解了编码器和解码器的结构,以及如何将它们组合成完整的Transformer模型。通过逐步实现和讲解,帮助读者深入理解Transformer的工作原理及其在自然语言处理中的应用。
2024-12-03 17:25:44
856
原创 26备战秋招code——lc每日一题14
这道题目看似复杂,但通过合理的分析和适当的循环控制,我们能够以较低的时间复杂度完成。在实现过程中,我们只需跟踪当前的胜者和他的连续胜利次数,从而轻松解决问题。通过这篇博客,你不仅学习到了如何通过遍历数组实现队列中的胜者追踪,还掌握了C++、Python、Go和Java的多种解法。如果你希望了解更多关于算法和力扣刷题的知识,欢迎关注微信公众号【算法最TOP】!
2024-10-24 22:57:29
952
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅