自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 大模型的训练和微调(理论篇)

摘要:大模型训练采用自监督学习处理海量数据,通过MLM/NSP等任务学习语言特征。预训练完成后需进行微调,利用标注数据调整参数以适应特定下游任务(如文本分类、问答系统)。该过程需要大量计算资源,实现从通用模型到专用任务的转化。

2026-01-03 08:56:05 68

原创 带有深度思考的模型与思维链(理论篇)

思维链(CoT)技术通过让AI生成中间推理步骤,模拟人类深度思考过程。该技术通过在训练数据中加入推理示例,使模型能够逐步推导复杂问题的答案,显著提升多步逻辑推理能力。

2026-01-03 08:48:32 67

原创 多模态Multimodal(理论篇)

多模态技术通过融合图像、文本、语音等不同数据模态提升任务性能,核心在于特征融合方法。主要采用早期融合(特征层融合)、晚期融合(决策层融合)和混合融合(结合两者优势)三种策略。这些方法通过整合多源信息实现更全面的理解和更强大的功能。

2026-01-01 22:01:27 439

原创 扩散模型DiffusionModel(理论篇)

扩散模型是一种基于物理扩散原理的生成模型,通过前向加噪和反向去噪两个阶段实现数据生成。模型先逐步将数据转化为噪声,再通过学习去噪过程恢复原始数据,最终生成高质量样本。相比GAN,扩散模型在图像生成等领域展现出更优的生成质量和多样性。

2026-01-01 21:55:13 117

原创 生成对抗网络GAN(理论篇)

摘要:生成对抗网络(GAN)由生成器和判别器组成,通过对抗训练提升生成能力。生成器制造逼真样本欺骗判别器,判别器则区分真假样本。二者交替优化:生成器改进样本质量,判别器提升判别能力。GAN在图像生成领域成果显著,如DCGAN、StyleGAN能生成高清图像,还可用于风格迁移、超分辨率和图像修复。其应用还拓展至视频生成和文本到图像转换等领域。

2025-12-31 12:46:30 401

原创 Embedding(理论篇)

摘要:Embedding是将离散对象映射为连续向量的技术,广泛应用于NLP和推荐系统。传统One-Hot编码存在维度高、无语义等缺陷,而Word2Vec等模型能生成蕴含语义的词向量。除词嵌入外,还有句嵌入、图像嵌入等,多模态任务需将不同模态映射到统一语义空间以实现跨模态交互。

2025-12-31 12:42:40 165

原创 混合专家模型MOE(理论篇)

混合专家模型(MOE)通过门控机制动态选择相关专家网络处理输入,在保持模型表达能力的同时降低计算量。该模型由多个专家网络和门控网络组成,门控网络根据输入为各专家分配权重,仅激活权重高的专家参与计算。这种结构使MOE能扩展至千亿参数规模(如SwitchTransformers),而实际计算量仅涉及少量专家,实现高效训练与推理。

2025-12-30 10:55:53 197

原创 Transformer架构(理论篇)

摘要:Transformer架构是NLP领域的核心模型,其核心自注意力机制能计算序列中各位置的关联权重,捕获全局依赖关系。为解决位置感知问题,引入了位置编码机制。

2025-12-30 10:45:05 1268

原创 大语言模型与生成式AI(理论篇)

大语言模型(如GPT系列)基于Transformer架构,通过大规模预训练展现强大的语言理解和生成能力,广泛应用于文本创作等领域。生成式AI还包括图像生成技术(如GANs和VAEs),通过对抗训练或学习数据分布来创造新内容。这些技术在文本和图像生成领域取得显著进展。

2025-12-29 11:44:24 158

原创 并行计算与分布式训练(理论篇)

摘要:并行计算通过同时使用多个计算资源(如GPU)加速深度学习训练。分布式训练则将任务分配到多台服务器上,解决单机资源不足问题,通过参数同步机制实现大规模模型高效训练。两种方法分别利用硬件并行性和多节点协作,显著提升深度学习模型的训练速度。

2025-12-29 11:33:22 134

原创 边缘检测与目标检测(理论篇)

本文概述了计算机视觉中的两项关键技术:边缘检测和目标检测。边缘检测通过Sobel、Prewitt和Canny等算法识别图像中的物体轮廓,帮助计算机理解物体形状。目标检测则通过传统方法(HOG+SVM)和深度学习方法(R-CNN系列、YOLO、SSD等)识别并定位图像中的特定物体,广泛应用于安防和自动驾驶领域。

2025-12-28 11:20:24 148

原创 ResNet建模技术(理论篇)

ResNet(残差网络)通过引入残差块和短路连接,解决了深层网络训练中的梯度消失/爆炸问题。这种结构使网络可以直接学习残差映射,突破了传统深度网络的训练瓶颈,成功实现了更深层网络的构建。ResNet的创新设计极大提升了网络性能,在图像识别等领域取得突破性进展。

2025-12-28 10:56:40 187

原创 BatchNorm建模技术(理论篇)

BatchNorm(批量归一化)是一种神经网络优化技术,它通过对每层输入数据进行标准化处理(均值为0、方差为1),显著提升训练效率:加速收敛、允许更大学习率,并具备正则化效果。这项技术有效解决了深度神经网络训练中的不稳定问题。

2025-12-27 19:28:01 168

原创 Dropout建模技术(理论篇)

Dropout是一种神经网络正则化技术,通过在训练时随机关闭部分神经元来防止过拟合,增强模型泛化能力。

2025-12-27 19:19:39 167

原创 Word2Vec词模型(理论篇)

摘要:Word2Vec是一种将单词映射到向量空间的词模型,它通过浅层神经网络训练,采用CBOW和Skip-Gram两种架构。该模型能有效学习单词语义特征,在文本分类、机器翻译等自然语言处理(NLP)任务中应用广泛。

2025-12-26 11:26:38 154

原创 循环神经网络RNN与长短期记忆网络LSTM(理论篇)

摘要:循环神经网络(RNN)通过链式连接节点处理序列数据,具有记忆更新和权重共享特性。长短期记忆网络(LSTM)引入输入门、遗忘门和输出门解决长期依赖问题。

2025-12-26 11:09:22 345

原创 卷积神经网络(理论篇)

卷积神经网络(CNN)是一种具有层级结构的深度学习模型,通过卷积层提取图像特征并实现平移不变性识别。CNN通过层层特征提取实现高效图像识别,成为深度学习的重要算法之一。

2025-12-25 17:45:03 257

原创 BP神经网络(理论篇)

BP神经网络是一种通过误差反向传播算法训练的多层前馈网络,由输入层、隐层和输出层组成。它能通过学习大量输入-输出模式自动建立映射关系,无需预先定义数学方程。工作原理是:输入层接收原始数据,隐层逐层提取特征,输出层产生最终结果。训练时,网络通过比较输出与正确答案计算误差,反向调整各层权重和阈值以最小化误差。这种机制使其具有强大的模式识别和预测能力,广泛应用于分类、决策等场景。

2025-12-25 17:40:59 365

原创 三级网络技术(第一章)

第一章 网络系统结构与设计的基本原则

2025-12-24 21:54:14 315

原创 利用csv文件,批量构造OpenAPI输出(新手篇)

本文介绍了使用Python调用百度翻译OpenAPI的实现步骤:1)构建封装函数;2)创建CSV文件存储待翻译内容(包含中英互译示例);3)通过绝对路径读取CSV数据;4)调用封装函数生成请求参数,添加延时避免频繁调用;5)发送GET请求获取翻译结果。完整代码展示了如何实现批量翻译功能,包括导入必要模块、路径拼接、参数传递和结果输出。文中还提供了参数对应关系表和注意事项,适合新手学习API调用和文件操作。

2025-12-24 08:25:45 692

原创 逐个构造OpenAPI输出(新手篇)

本文介绍了使用Python调用百度翻译API的基本方法。首先通过make_md5和build_payload函数构造API请求参数,包括生成随机salt和MD5签名。然后创建output_api.py文件,使用requests库发送GET请求到百度翻译API接口,并处理返回的JSON结果。文章提供了完整的代码示例,从参数构造到API调用的完整流程,帮助开发者快速实现简单的翻译功能。

2025-12-23 17:47:25 905

原创 零基础调用OpenAPI(新手篇)

本文介绍了使用Python调用百度翻译API的具体实现步骤。首先需要注册获取APPID和密钥,然后通过两个核心函数构建请求参数:make_md5()用于生成MD5签名,build_payload()按照API规范构造包含随机数salt的请求参数。文章提供了完整代码示例,演示了如何将中文“你好世界”翻译成英文,并详细说明了代码执行方法(通过PowerShell或VS Code运行)以及解决中文乱码问题的方案。

2025-12-23 17:15:53 756

【三级网络技术】第一章 网络系统结构与设计的基本原则

【内容概要】本文介绍了计算机网络的基本分类及其系统结构设计原则,重点讲解了广域网、局域网和宽带城域网的特点与构成。 【适合人群】具备基本网络知识,正在备考计算机等级考试三级网络技术的学生或从业人员;初级网络技术人员。

2025-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除