自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我是个好人呀,O(∩_∩)O

我真的是个好人呀,(●ˇ∀ˇ●)

  • 博客(277)
  • 收藏
  • 关注

原创 【Python从入门到精通】--佛主保佑

这段代码注释以趣味性的"佛祖保佑"符文开头,表达了程序员对代码稳定运行的期望。核心内容包括:作者信息(gyp)、时间戳(2024-10-21)、文件路径(C/SString.c)、联系方式(13438784965),并注明该代码为自学用途。其中"永不宕机永无BUG"的祈愿语和独特的ASCII艺术符文,展现了程序员在严谨编码之外幽默风趣的一面。整段注释既包含了必要的技术信息,又通过创意形式缓解了编程压力。

2025-09-02 15:40:29 159

原创 【计算机常识】--上传项目到Github

本文介绍了使用GitHub和Git进行版本控制的基本流程。首先指导用户在GitHub创建新仓库,然后详细说明本地Git仓库的初始化、分支切换、远程仓库绑定等操作步骤。文章还提供了常见问题(如连接失败)的解决方法,并建议使用SSH协议提高安全性。最后讲解了如何通过添加文件、提交更改和推送代码完成项目上传。整个流程涵盖了从创建到上传的完整版本控制操作,适合开发者快速掌握GitHub的基本使用方法。

2025-07-10 17:34:36 637

原创 【人工智能agent】--docker本地部署dify教程

Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。 非技术人员:不懂编程、对大模型不太懂,也可以使用DIFY2、功能介绍 由于 Dify 内置了构建 LLM 应用所需的关键技术栈,包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agen

2025-04-23 10:57:39 21828 11

原创 【人工智能:Agent】--3.Langchain快速入门

langchain

2026-01-08 19:42:22 438

原创 【人工智能:Agent】--2.AI智能体能力架构

摘要:OpenAI研究主管Lilian Weng提出AIAgent系统由大模型、规划、记忆和工具使用四大组件构成。其中大模型作为"大脑"提供推理能力,规划模块通过思维链(CoT)和思维树(ToT)实现任务分解,记忆模块通过向量数据库实现长期记忆存储,工具模块则赋予Agent调用外部API的能力。该系统已在虚拟小镇等场景中验证了可行性,如AI角色自主规划情人节派对。关键技术包括ReAct框架(结合推理与行动)、Reflexion(自我反思机制)等,通过分层架构可处理复杂任务。示例展示了基于

2026-01-08 15:30:28 515

原创 【计算机视觉CV:目标检测】--1.概述

简介

2026-01-07 22:05:32 422

原创 【人工智能:Agent】--1.AI智能体简介

本文介绍了AI智能体的核心概念与应用。AI智能体是通过为大语言模型提供工具和知识扩展其能力的系统,包含环境、传感器和执行器等组件。文章详细阐述了智能体的核心模块(Agent、记忆、规划、工具和行动)及其交互关系,并分类介绍了反射型、目标型、学习型等6种智能体类型。同时对比了LangChain、AutoGen等主流框架特点,重点演示了使用LangChain框架创建智能体的两种方法(create_tool_calling_agent和create_react_agent),通过代码示例展示了多工具集成和任务执行

2026-01-07 16:57:37 277

原创 【论文阅读】--PEACE:基于多模态大语言模型的地质图全息理解赋能框架

摘要: 微软研究院提出PEACE框架(赋能地质地图整体理解的多模态大语言模型),通过GeoMap-Agent系统解决地质图智能分析难题。该系统包含三个核心模块:层次信息提取(HIE)采用分治策略处理高分辨率图像;领域知识注入(DKI)整合地质学专家知识;提示增强问答(PEQA)优化模型输出。配套发布的GeoMap-Bench基准包含124张地质图和3,864个标注问题,覆盖提取、定位、推理等五大能力维度。实验表明,该系统在USGS和CGS数据集上均显著优于基线模型,准确率提升30%以上。研究代码和数据集已开

2026-01-06 16:07:09 1076

原创 【大模型:RAG】--向量数据库Milvus WebUI页面

Milvus提供了两种WebUI工具:Attu和内置WebUI。Attu是开源图形化管理工具,支持数据操作、集合管理和向量搜索,适合开发调试;内置WebUI随Milvus启动,专注于系统监控、组件状态和配置审计,适合运维人员。两者部署方式不同,Attu需独立安装并通过3000端口访问,内置WebUI则通过9091端口自动启用。文章还演示了使用Python创建向量数据库的完整流程,包括定义Schema、创建集合索引以及插入数据。两种WebUI各有侧重,用户可根据需求选择:Attu适合日常数据管理,内置WebU

2026-01-05 18:07:16 723

原创 【大模型:RAG】--向量数据库Milvus详解2

本文详细介绍了Milvus向量数据库的Schema设计、索引创建、数据操作及搜索功能。主要内容包括: Schema设计:定义Collections的数据结构,包含主键、向量字段和标量字段的配置方法,支持自动ID和手动ID两种模式。 向量操作: 密集向量和稀疏向量的处理 向量索引的创建(FLAT、IVF等) 相似性搜索和范围搜索 数据管理: 实体插入、删除和更新 分区操作 查询和获取方法 高级搜索功能: 混合搜索(多向量场联合搜索) 全文搜索(基于BM25算法) 文本匹配和短语匹配 过滤功能:支持多种操作符和

2026-01-02 17:04:08 1109

原创 【大模型:RAG】--向量数据库Milvus详解1

摘要:Milvus是一款专为向量数据设计的开源数据库,支持海量向量存储与高效相似性搜索。其核心架构采用存算分离设计,包含接入层、协调服务、执行节点和存储层,支持水平扩展。Milvus提供多种部署方式(Lite/Standalone/Distributed),支持Python SDK操作,主要功能包括集合管理(支持动态字段、自动索引)、分区划分、多一致性级别设置等。典型应用场景包括推荐系统、知识库和AI应用中的向量检索。商业版本Zilliz Cloud提供托管服务,开源版本支持本地、Docker和Kubern

2025-12-17 20:53:56 810

原创 【计算机常识】--Windows 安装 WSL2 并运行 Ubuntu 22.04

摘要:WSL2(Windows Subsystem for Linux 2)为Windows用户提供轻量级Linux虚拟机支持,无需传统虚拟机或双系统。其核心优势包括: 开发友好:原生支持Linux工具链(bash/grep等)、完整Python/Node.js生态,以及apt一键安装Nginx/Redis等; AI/ML兼容:可运行TensorFlow/PyTorch,支持GPU加速(需NVIDIA CUDA); 高效集成:与Windows文件互通(/mnt/c/)、低资源占用,且支持Docker无缝协作

2025-12-16 18:14:16 1419

原创 【大模型:多模态LLM】--Blip模型详解

本文介绍了BLIP算法的设计与实现,这是一种统一的视觉-语言预训练模型。BLIP通过三个核心模块实现多模态理解与生成:1)图像编码器提取视觉特征;2)文本编码器进行跨模态对齐;3)文本解码器实现图像描述生成。相比CLIP,BLIP创新性地引入了Captioner和Filter模块来清洗网络数据,并采用三种联合训练目标:图文对比学习(ITC)、图文匹配(ITM)和语言建模(LM)。文章详细解析了ViT视觉编码器、BERT文本编码器/解码器的实现,以及三种损失函数的计算过程。该模型在图像-文本检索、视觉问答等任

2025-12-09 17:21:24 852

原创 【论文阅读】--多模态大语言模型的安全性研究综述

从简单高效的线性投影器和MLP,到适用于深度交互的交叉注意力机制,再到能够精细提取特征的Q-Former、P-Former以及其增强版MQ-Former,这些工具共同奠定了多模态模型复杂特征表示的基础。例如,将视觉问答数据集中的输入(图像和问题)和输出转换为多模态输入和响应,并结合任务描述丰富数据的指令格式。综上所述,不同的模态编码器根据各自的特点和应用场景,采用了不同的技术和架构,但共同目标是为多模态大型语言模型提供统一且有效的特征表示,使得模型能够在处理复杂多样的输入时实现精准的理解和生成能力。

2025-12-02 21:43:38 1426

原创 【深入浅出PyTorch】--9.使用ONNX进行部署并推理

摘要:本文介绍了深度学习模型部署的关键技术流程,重点讲解了PyTorch模型通过ONNX格式实现跨平台部署的方法。主要内容包括:1)ONNX作为标准中间格式的作用及其生态体系;2)使用torch.onnx.export()进行模型转换的详细参数配置;3)通过ONNXRuntime进行推理的完整代码实现;4)模型验证、可视化工具Netron的使用方法。文章通过超分辨率模型的完整案例,展示了从PyTorch训练、ONNX转换到最终部署的全流程,并提供了处理动态输入尺寸、多框架兼容性等实际问题的解决方案。该技术方

2025-12-02 12:23:32 710

原创 【大模型:多模态LLM】--4.多模态视觉大模型的架构

多模态AI模型架构综述 本文系统梳理了多模态AI的核心技术框架。首先分类了三种模态交互类型:单模态输入输出不同模态、多模态输入单/多模态输出。随后详细解析了四大主流架构:双编码器(CLIP等)、融合架构(GLIP等)、编码器-解码器(PaLI等)及适配大语言模型(Flamingo等),重点对比了各结构的模态融合方式和典型应用场景。通过CLIP、GLIP、Flamingo和LLaVA四个典型案例,深入剖析了对比学习预训练、开放词汇检测、少样本学习等关键技术,并提供了完整的代码实现示例。研究显示,冻结主干网络+

2025-12-01 21:06:52 874

原创 【论文阅读】--大语言模型安全与隐私风险综述

本文系统梳理了大语言模型(LLM)面临的安全与隐私风险。在安全风险方面,分析了常规威胁(对抗样本攻击、后门攻击、投毒攻击)和新型威胁(生成内容安全、恶意使用、资源消耗攻击、模型劫持)。隐私风险包括数据隐私威胁(成员推断、数据提取、模型逆向、越狱攻击)和模型知识产权风险(模型萃取、提示词窃取)。文章还总结了防御技术,如对抗训练、后门检测、差分隐私等。研究表明,随着LLM应用扩展,其安全与隐私问题日益突出,需要在模型设计、训练和部署中平衡性能与安全性。

2025-11-27 15:48:24 833

原创 【大模型:多模态LLM】--3.视觉基础大模型的架构

摘要:本文介绍了五种无监督视觉表征学习方法。ViT通过分块处理和自注意力机制革新了图像处理方式。MoCo系列采用对比学习策略,从V1到V3逐步优化负样本处理和ViT适配。DINO通过自蒸馏实现无负样本训练,特别适合ViT架构。MAE借鉴BERT思想,通过掩码重建学习视觉表征。SAM则是通用图像分割模型,具备强大的零样本泛化能力。这些方法各具特色,在无监督视觉表征学习领域取得了重要突破,为计算机视觉任务提供了强大的基础模型。

2025-11-26 17:28:43 625

原创 【大模型:多模态LLM】--一文理解VIT(Vision Transformer)模型

ViT(Vision Transformer)是一种基于Transformer架构的计算机视觉模型,通过将图像分割为多个Patch并进行Embedding处理,结合位置编码和类别编码,实现图像分类任务。相比CNN,ViT在数据量较小时表现不佳,但在大规模数据训练下展现出强大性能。ViT的核心结构包括Patch Embedding、Class Embedding、Position Embedding和多个Transformer Encoder模块。实验表明,ViT能学习到图像的空间局部性和全局特征,其注意力机

2025-11-25 20:16:12 990

原创 【大模型:多模态LLM】--2.自监督学习的原理和方法

自监督学习是一种无需人工标注的无监督学习方法,通过设计辅助任务从数据自身生成监督信号。主要方法包括:1)基于前置任务,如图像旋转预测、拼图重组等;2)基于对比学习(如SimCLR、MoCo),通过拉近正样本对、推开负样本对学习特征表示;3)基于掩码重建(如BEiT),借鉴BERT思想预测被掩码的图像块。这些方法通过构造"伪标签"实现类似监督学习的训练,显著提升了模型的特征提取能力,为下游任务提供强大支持。自监督学习已成为深度学习领域的重要研究方向,在计算机视觉、自然语言处理等领域展现出巨

2025-11-25 16:29:42 64

原创 【大模型:多模态LLM】--1.视觉大模型介绍

本文摘要:课程主要介绍大模型技术发展与应用,适合具备深度学习基础(熟悉CNN/Transformer和PyTorch框架)的学习者。内容涵盖:1)大模型演变历程,从BERT到ChatGPT的重要模型及其特点;2)视觉大模型架构,包括数据输入、主干网络和统一感知解码器;3)基础大模型与传统AI的区别,强调其"一模万事通"的通用性优势,可适应多任务并降低开发成本。课程配套B站教程,适合对计算机视觉和大模型感兴趣的开发者。

2025-11-03 20:27:30 1036

原创 【深入浅出PyTorch】--8.2.PyTorch生态--PyTorchVideo、torchtext、torchaudio

摘要:本文介绍了PyTorch生态系统中三大领域专用工具包:PyTorchVideo、torchtext和torchaudio。PyTorchVideo是Meta推出的视频理解深度学习库,提供Model Zoo(包含I3D、SlowFast等SOTA模型)、多模态支持和移动端优化。torchtext专注于NLP任务处理,包含Field对象定义、数据集构建、词汇表创建和迭代器生成等功能,支持BLEU等评测指标。torchaudio提供语音处理工具,涵盖音频I/O、特征提取(如MFCC)、常用数据集(Libri

2025-11-03 19:29:04 686

原创 【深入浅出PyTorch】--8.1.PyTorch生态--torchvision

本文介绍了PyTorch生态系统及其在计算机视觉领域的应用。主要内容包括:1. PyTorch生态系统概述,包含torchvision等官方库和第三方工具包,提供数据加载、模型构建、训练优化等功能。2. torchvision核心组件详解:- datasets:涵盖图像分类、目标检测等任务的常用数据集- transforms:提供数据预处理和增强方法- models:包含预训练模型如ResNet、MobileNet等- ops:实现NMS、RoIAlign等视觉专用操作- utils:提供图像拼接、可视化工

2025-11-03 17:06:23 1211

原创 【大模型:RAG】--CLIP模型实现多模态检索

OpenAI提出的CLIP模型是多模态领域的突破性工作,通过对比学习实现图像与文本的跨模态对齐。该模型将传统图像分类任务转化为图文匹配问题,支持零样本推理,无需微调即可应用于新类别。CLIP采用双编码器架构,使用4亿互联网图文对进行预训练,通过对比损失函数拉近匹配的图文向量距离。实验显示其零样本性能可媲美有监督模型,在30+下游任务中表现优异,尤其在非自然图像上迁移能力突出。不过CLIP也存在处理抽象任务能力有限、测试数据分布偏移时性能下降等局限。该技术为后续DALL·E2、StableDiffusion等

2025-10-30 20:37:09 1112

原创 【深度学习:理论篇】--一文彻底搞懂对比学习:原理、方法与应用

摘要:对比学习是一种自监督学习方法,旨在从无标注数据中学习有效表示。其核心思想是通过构造相似/不相似样本对,使相似样本在投影空间距离相近,不相似样本相距较远。SimCLR作为典型对比学习模型,通过复合图像增强构建正负样本,采用双塔结构(Encoder+Projector)和InfoNCE损失函数进行训练。关键创新包括:1)验证复合增强的有效性;2)引入Projector结构提升特征质量。对比学习需防止模型坍塌(所有样本映射到同一点),常见方法包括使用负样本、对比聚类、非对称网络等。实验表明,对比学习模型能有

2025-10-30 17:58:04 1435

原创 【计算机常识】--解决网页禁止复制的问题

本文介绍了三种突破网页防复制限制的方法:1)通过开发者工具查看源码获取文字内容;2)禁用JavaScript解除复制限制;3)在控制台输入命令输出纯文本。这些方法适用于合法学习用途,但可能影响动态网页显示效果,获取的文本需自行整理格式。

2025-10-23 18:54:02 514

原创 【大模型:微调】--五个最流行的大模型微调框架

摘要: 本文系统介绍了五种主流大模型微调框架:1)LLaMA-Factory(可视化界面、全场景支持、兼容80%开源模型);2)HuggingFace Transformers+PEFT(全模态覆盖、30万+社区模型库);3)KilnAI(低代码平台、团队协作、本地隐私优先);4)Unsloth(零精度损失的训练加速,显存降低39%-65%);5)DeepSpeed(微软开发的分布式引擎,支持千亿参数训练)。各框架优劣势鲜明:LLaMA-Factory和KilnAI适合快速迭代,Unsloth专注效率提升,

2025-10-23 17:36:10 1158

原创 【大模型:微调】--一文掌握大模型微调的8种方法

大模型微调技术概述 大模型训练分为预训练和微调两个阶段:预训练使模型掌握语言基础知识,微调则针对特定任务优化模型性能。微调方法主要分为全面微调(调整所有参数)和参数高效微调(PEFT)两大类。 PEFT技术显著降低了计算成本,包括: LoRA:通过低秩矩阵调整关键权重 QLoRA:结合4位量化的LoRA改进 适配器微调:插入小型神经网络模块 前缀/提示微调:添加可训练提示向量 P-Tuning系列:利用LSTM动态生成提示 最新进展如LoRA+MoE结合了混合专家架构,进一步提升了参数效率。这些技术使大模型

2025-10-21 20:46:14 1469

原创 【大模型:知识图谱】--GraphRAG基本原理+实战

本文介绍了基于知识图谱的检索增强生成技术GraphRAG,这是一种解决大模型幻觉问题、提升输出可靠性的创新方案。文章首先阐述了GraphRAG的技术原理,包括知识图谱构建(实体关系抽取、社区检测等)和智能检索(全局搜索与局部搜索)两个核心阶段。接着详细说明了从文本到知识图谱的完整流程,包括索引构建和查询处理。最后通过西游记文本的实战案例,展示了GraphRAG的具体应用,包括环境部署、知识图谱构建和可视化呈现。该技术通过结构化知识表示和推理能力,显著提升了复杂知识场景下的问答质量。

2025-10-20 19:03:17 1122

原创 【深入浅出PyTorch】--7.2.PyTorch可视化2

TensorBoard是一款强大的深度学习可视化工具,能够实时监控训练过程中的各项指标。它支持模型结构可视化、训练曲线绘制、参数分布分析等功能,通过简单的代码即可实现数据记录和网页端展示。文章详细介绍了TensorBoard的安装配置、基本使用方法,包括模型结构可视化、图像数据展示、连续变量跟踪等操作。同时针对服务器环境提供了多种远程访问方案,帮助研究人员更好地分析和优化模型。此外,文章还简要介绍了云端可视化工具wandb,支持实验记录和结果共享。这两种工具的结合使用,能够显著提升深度学习实验的效率和可解释

2025-10-16 21:31:51 1147

原创 【Bug:docker】--Docker国内镜像源加载失败

Docker镜像拉取失败的解决方案 由于Docker Hub在中国大陆被屏蔽,直接拉取镜像会出现连接超时等问题。解决方法包括: 配置国内镜像源(如DaoCloud、中科大等镜像地址) 修改daemon.json文件并重启Docker服务 常见错误包括: 连接超时(Client.Timeout exceeded) 请求被取消(request canceled) 镜像不存在(需确认镜像名称正确) 注意事项: 拉取前务必在Docker Hub官网确认镜像是否存在 测试hello-world镜像可用于验证基础功能

2025-10-15 21:42:07 1071

原创 【深入浅出PyTorch】--7.1.PyTorch可视化1

摘要:本文介绍了PyTorch中可视化神经网络结构的工具torchinfo,以及CNN模型的可视化方法。针对深度神经网络结构复杂难以调试的问题,torchinfo提供了比直接print更详细的网络层信息、参数量统计等可视化功能。在CNN可视化部分,文章详细讲解了卷积核可视化、特征图可视化(使用Hook技术)、类激活图(CAM)等三种方法,并介绍了快速可视化工具FlashTorch的使用。这些可视化技术有助于理解CNN的工作原理,提高模型的可解释性,为模型优化提供依据。通过本文的学习,读者可以掌握CNN模型各

2025-10-14 17:03:52 949

原创 【Python从入门到精通】--Pycharm增加内存

PyCharm常提示内存不足导致卡顿,可通过两种方法解决:1)调整IDE内存至8192MB(2的幂次方):在帮助→更改内存设置中修改;2)启用内存监控:视图→外观→状态栏微件→勾选内存显示器,重启后即可查看实时内存使用情况。这些操作可优化IDE性能,缓解运行卡顿问题。

2025-10-14 11:18:45 823 2

原创 【深入浅出PyTorch】--6.2.PyTorch进阶训练技巧2

文章摘要: 本文介绍了深度学习中的三个重要工具和技术:1) timm库的使用,这是一个扩展的计算机视觉预训练模型库,包含1689个模型,支持安装、查询和修改模型参数;2) 半精度训练技术,通过torch.cuda.amp实现显存优化;3) imgaug数据增强库的应用,包含多种图像增强方法并支持批量处理。此外还介绍了argparse超参数管理方法,通过config.py模块化参数设置。这些技术可提升模型训练效率和泛化能力,适用于计算机视觉任务中的模型微调、显存优化和数据增强场景。

2025-10-13 20:31:05 1242

原创 【深入浅出PyTorch】--6.1.PyTorch进阶训练技巧1

本文介绍了PyTorch中三个关键技巧:1.自定义损失函数,包括DiceLoss、FocalLoss等非官方损失函数的实现方法;2.动态调整学习率策略,详细解析了官方提供的12种scheduler及其适用场景;3.模型微调技术,重点讲解了迁移学习中冻结参数、替换输出层等核心方法。这些技巧能有效解决深度学习中的特定问题,如小数据集训练、模型收敛优化等,并提供了完整的代码实现示例。通过灵活组合这些方法,可以显著提升模型性能,特别适用于细粒度图像分类等实际任务。

2025-10-11 18:11:54 666

原创 【深入浅出PyTorch】--5.PyTorch模型的定义、修改、保存和读取

本文系统介绍了PyTorch中模型定义的三种方式:Sequential、ModuleList和ModuleDict。Sequential适用于简单顺序结构,ModuleList提供灵活层管理,ModuleDict支持按名称访问模块。文章以U-Net为例,展示了如何通过模块化构建复杂网络,包括DoubleConv、Down、Up等核心组件的实现。此外,还详细讲解了模型修改方法,如替换层、添加输入输出,以及在不同单卡/多卡环境下模型保存与加载的最佳实践,包括如何处理权重字典中的"module&quot

2025-10-10 18:06:13 948

原创 【深入浅出PyTorch】--上采样+下采样

本文系统介绍了上采样和下采样的概念与作用。下采样通过最大池化、平均池化或带步长卷积降低特征图尺寸,减少计算量并提取高层语义信息,常用于编码器。上采样通过插值法或转置卷积增大特征图尺寸,恢复空间分辨率,常用于解码器或分割任务。PyTorch中实现方式包括nn.MaxPool2d、nn.AvgPool2d、nn.Upsample(支持多种插值模式)和nn.ConvTranspose2d(可学习上采样)。针对不同任务需求,推荐使用特定组合,如分割任务建议使用双线性插值+align_corners=True。

2025-10-10 17:20:34 1453

原创 【深入浅出PyTorch】--4.PyTorch基础实战

ResNet残差神经网络通过引入"快捷连接"解决了深层网络训练中的退化问题,突破了神经网络层数限制。文章详细解析了梯度消失/爆炸问题,对比了传统缓解方法,并阐述了ResNet的残差学习机制如何通过保持梯度无损路径来提升训练效果。代码实现部分展示了BasicBlock和Bottleneck两种结构的模块化设计,以及ResNet18至ResNet152的搭建方法。此外,文章还以FashionMNIST数据集为例,演示了完整的图像分类流程,包括数据加载、模型构建、训练验证及结果可视化。通过残差

2025-10-09 17:43:49 1180

原创 【深度学习:基础篇】--1.5.前向+反向+参数更新

反向传播是神经网络训练的核心机制,通过链式法则计算梯度并更新参数。主要步骤包括:前向传播计算输出和损失,反向传播从输出层逐层计算梯度(如分类任务中输出层梯度为预测值与真实标签之差),最后使用优化器更新参数。该过程在自动微分框架中实现,通过计算图高效完成梯度计算和参数优化。

2025-10-09 11:29:35 591

原创 【深入浅出PyTorch】--3.2.PyTorch组成模块2

本文介绍了PyTorch中深度学习模型训练的关键技术:权重初始化、损失函数、训练验证流程及优化算法。针对权重初始化,详细讲解了torch.nn.init模块提供的多种初始化方法及其适用场景;在损失函数部分,重点分析了交叉熵损失等常用函数;训练验证环节展示了模型不同状态下的标准流程;最后深入解析了优化器基类Optimizer的工作原理及SGD等优化算法的实现。文章通过代码示例演示了各技术的实际应用,为深度学习实践提供了系统性的技术指导。

2025-10-08 18:24:23 1124

3.1 机器学习-线性回归

3.1 机器学习-线性回归

2024-10-28

SMSSpam.txt

数据集

2024-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除