自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

修一的博客

欢迎关注一起学习!

  • 博客(32)
  • 收藏
  • 关注

原创 〖ClearVoice 环境声/人声分离教程〗基于 FRCRN_SE_16K / MossFormerGAN_SE_16K 的实战记录

本文记录了在 AI 机器人项目中,用 ClearVoice 的 FRCRN_SE_16K / MossFormerGAN_SE_16K 实现“人声增强 + 环境声残差分离”的完整实战过程。通过先将混合音重采样为 16k 单声道,再用 ClearVoice 做语音增强,得到干净人声,并用 env = mix - speech 计算环境声。FRCRN 作为稳定工程方案,适配 ASR、情绪识别和声纹;残差环境声则送入 YAMNet 做场景识别,为机器人理解“说什么”和“在哪儿”提供了音频前处理基础。

2025-12-05 17:05:11 869

原创 〖FunASR情绪识别教程〗基于 emotion2vec+ large 的本地语音情绪识别实战

摘要:本文介绍了一个基于FunASR的语音情绪识别项目,使用emotion2vec_plus_large模型实现9类情绪分类。系统可处理本地单条wav音频,输出包括愤怒、开心、悲伤等情绪的概率分布及Top-1结果,并自动保存JSON格式的识别结果。文章详细说明了环境配置、依赖安装和核心代码实现,通过AutoModel封装实现从音频输入到情绪分析的完整流程。该项目特别强调语音情绪识别在AI交互中的重要性,为后续集成到机器人系统提供了基础方案。

2025-12-05 14:50:00 740

原创 【阿里云ASR教程】阿里云一句话识别(NLS)实战:带 Token 缓存 + WAV 自动重采样的 Python 脚本

本文介绍了一个完整的阿里云语音识别项目实现方案,主要包括: 使用.env文件管理AK/SK/AppKey等敏感信息 通过TokenManager类实现Token的自动获取和缓存更新 音频预处理功能,自动将WAV文件转换为16kHz单声道PCM格式 调用阿里云NLS SDK进行一句话识别 最终输出识别结果文本 项目结构清晰,包含完整的错误处理和日志记录,支持WAV文件自动重采样和Token自动续期,实现了"一键跑通"的便捷语音识别功能。

2025-12-04 15:21:30 1240

原创 [机器人感知] 基于 YAMNet TFLite + FastAPI 的环境声音识别系统(支持中英双语标签)

该项目构建了基于YAMNet+TFLite+FastAPI的环境声音识别系统,支持521类环境声分类与中英双语标签展示。核心优势在于轻量高效(模型仅4.2MB),适配服务器与嵌入式/机器人设备,通过多帧推理平均概率提升识别鲁棒性,设置0.3置信度阈值保障结果可靠性。系统包含完整部署流程:Conda环境搭建、模型准备、FastAPI后端运行及前端测试页面,支持音频上传识别,返回Top1/Top5结果与元数据,为智能机器人环境感知、IoT安全感知等场景提供了开箱即用的解决方案。

2025-12-02 14:43:36 665

原创 【声音分离】多人语音分离方案:ClearVoice + MossFormer2_SS_16K 实战教程

本文介绍了使用阿里云开源的ClearVoice工具包实现重叠语音分离的方法。该工具采用MossFormer2_SS_16K模型,专门针对单通道多说话人重叠语音场景设计,可将混合音频分离为独立人声文件。文章详细讲解了环境配置、核心代码实现步骤,并展示了分离效果。该方法适用于智能客服、会议纪要等企业应用场景,支持GPU加速处理。文末还推荐了相关企业级对话处理方案,为开发者提供完整的语音处理技术栈参考。

2025-11-28 17:06:44 879

原创 【企业级对话处理】自动估计说话人数 + 声纹聚类 + ASR 转写(FunASR + ModelScope + ClearVoice)

本文介绍了一个企业级语音处理流水线技术,实现多人对话场景的自动转写与说话人分离。该方案通过VAD分句、声纹特征提取、自动估计说话人数、层次聚类和ASR转写等步骤,输出带时间戳和说话人标识的文本。核心功能包括:自动推断说话人数(无需手动指定)、短句合并优化、支持16kHz单声道输入,并整合了FunASR转写和标点功能。技术流程涵盖音频预处理、声纹向量提取、基于轮廓系数的聚类优化,最终生成结构化对话文本。该方案适用于会议记录、客服质检等场景,提供开箱即用的完整解决方案。

2025-11-27 11:41:14 946

原创 [cursor解惑]cursor中codex无法使用,一直转圈圈解决方案

Cursor的Codex插件更新后出现连接问题,原因是新版本默认使用WSL端口运行。解决方案只需三步:1)打开设置;2)搜索"codex"找到WSL相关选项;3)关闭"仅Windows系统适用"的WSL运行功能即可恢复正常。这是因为Windows本机有代理而WSL没有导致转圈问题。修改后需重启VSCode生效,操作简单快捷。(148字)

2025-11-07 12:02:49 1567 4

原创 [INDEX-TTS2]最强语音模型详细部署教程(附国内网络解决方案)

本文提供IndexTTS-2在AutoDL服务器上的详细部署教程,重点解决国内网络下的模型下载问题。通过分步安装依赖、使用国内镜像源加速下载,并详细说明核心模型和辅助模型的手动下载配置方法,确保顺利部署。教程涵盖系统准备、项目解压、Python环境配置、模型下载(含HuggingFace和ModelScope两种方式)以及WebUI启动全流程,特别针对国内网络环境进行了优化处理,帮助用户快速搭建工业级TTS系统。

2025-10-28 17:39:16 4353

原创 【联网搜索】光速实现大模型联网搜索(api方案)

本文介绍了一种为大模型添加联网搜索能力的极简方案,仅需几行核心代码即可实现。方案通过判断问题关键词(如"最新"、"今天"等)决定是否进行网络搜索,利用SerperAPI获取结果并提取关键信息,再将搜索结果作为上下文输入通义千问模型生成回答。开发者只需配置Serper和Qwen两个API密钥即可使用。该方案简洁高效,帮助大模型快速获取实时信息,提升回答准确性。

2025-10-11 10:26:44 1889

原创 [后端快速搭建]基于 Django+DeepSeek API 快速搭建智能问答后端

本文详细介绍了如何通过Django框架集成DeepSeek API搭建智能问答后端服务。内容涵盖环境配置(Conda/PyCharm)、项目模块化设计、路由配置、核心API调用逻辑实现(包含异常处理和健康检查接口)以及功能测试全流程。重点解析了deepseekAsk.py中的视图函数实现,包括请求解析、参数校验、DeepSeek API调用和错误处理机制,并提供了完整的代码示例。该方案适合需要快速构建AI问答功能的开发者参考,可实现与前端(如微信小程序)的高效对接。

2025-08-27 19:33:18 2782

原创 [大模型微调]基于llama_factory用 LoRA 高效微调 Qwen3 医疗大模型:从原理到实现

摘要:本文介绍了如何利用LoRA技术高效微调Qwen3大模型应用于医疗场景。针对医疗知识精准度不足和训练成本高的痛点,文章详细解析了LoRA的核心原理及其优势,并提供了从环境搭建(conda、LLaMA-Factory)、数据模型准备(Qwen3模型和医疗数据集)到LoRA微调可视化操作的全流程指南。最后展示了医疗问答推理代码及效果验证,为医疗大模型落地提供了一套完整的轻量级解决方案,显著降低了微调门槛和资源消耗。(148字)

2025-08-21 19:40:21 1657

原创 大模型云端调用与本地部署?看这一篇就够了!

本文详细介绍了大模型应用开发的两种实践方式:API调用和本地部署。首先讲解DeepSeek API调用流程,包括注册账号、Postman测试和使用Python代码实现。然后介绍Qwen3-0.6B模型的本地部署方法,涵盖模型下载、依赖安装和Python推理代码实现。内容涵盖从API快速验证到私有化部署的完整流程,适合大模型初学者入门实践。文章提供了详细的操作步骤和代码示例,帮助开发者快速掌握大模型应用开发的基本技能。

2025-08-18 11:45:57 1460

原创 简单手写Transformer:原理与代码详解

本文详细介绍了从零开始实现Transformer模型的完整过程。首先阐述了Transformer的核心架构,包括编码器、解码器及其关键组件:自注意力机制、多头注意力、位置编码和前馈网络。随后通过代码演示了数据处理、位置编码、掩码机制等模块的具体实现,并构建了编码器和解码器层。文章还提供了模型训练和预测的完整流程,使用交叉熵损失和SGD优化器进行训练,采用贪婪解码算法生成目标序列。整个过程涵盖了Transformer从理论到实践的完整实现,为理解这一重要的NLP模型提供了清晰的代码示例。

2025-08-07 20:22:08 1225

原创 [yolo11微调项目实战]基于VisDrone-DET的YOLO11 + CBAM + Transformer + ViT + MobileViT + TensorRT 一站式教程(含算力租赁)

本教程将带领大家完成一个基于 VisDrone-DET 数据集的 YOLO11 完整项目实战,涵盖从环境搭建、模型训练、Transformer 集成到最终利用 TensorRT 加速的全流程。考虑到训练对算力的较高要求,还会介绍算力租赁的相关操作,即使是硬件配置有限的同学也能顺利完成项目。

2025-08-06 08:54:01 2962 3

原创 [yolo实战]YOLOv5模型训练:口罩检测模型训练与部署全流程

本文详细介绍了基于YOLOv5框架搭建口罩检测模型的完整流程。首先通过Anaconda创建虚拟环境并配置GPU加速的PyTorch环境。然后对YOLOv5模型进行针对性优化,包括调整锚框尺寸以适配小目标检测。文中提供了完整的训练脚本和推理脚本,包含详细的参数说明和异常处理机制。该方案支持识别"戴口罩"、"错误戴口罩"和"不戴口罩"三种状态,训练过程采用100个epoch,最终模型可实现实时检测。整套代码经过优化,适合初学者学习参考,文末还展示了实际

2025-07-31 11:55:18 2426

原创 【数据标注】详解使用 Labelimg 进行数据标注的 Conda 环境搭建与操作流程

本文介绍了使用Conda为LabelImg创建独立环境的完整流程。首先解释了独立环境能避免依赖冲突的优势,然后详细演示了从检查Conda安装、创建Python3.9环境到安装LabelImg的具体步骤。最后提供了LabelImg的基本使用教程,包括启动方法、标注操作快捷键以及PascalVOC/YOLO格式转换说明。通过这套标准化流程,开发者可以快速搭建稳定的图像标注环境,为计算机视觉项目做好准备。

2025-07-28 20:28:32 1399

原创 【语言模型训练】基于 LSTM 的古诗生成模型:从原理到实现

本项目实现了一个基于LSTM的古诗自动生成模型。通过构建字符级别的映射表,将古诗文本转换为模型可处理的数字形式。模型采用两层LSTM网络结构,能有效捕捉古诗的语言模式和韵律特征。训练过程中使用Adam优化器和学习率调度器优化模型参数。生成阶段通过温度参数控制随机性,采用Top-K采样策略提高生成质量。最终模型能够根据起始词语生成符合古诗风格的诗句,并支持调整生成结果的随机性和长度。项目完整实现了从数据处理、模型训练到古诗生成的全流程,提供了完整的Python源码,可直接运行测试。

2025-07-25 15:52:25 1729

原创 [语言模型训练]基于 PyTorch 的双向 LSTM 文本分类器实现:基于旅店的评论分类语言模型

本文介绍了使用PyTorch实现基于双向LSTM的酒店评论情感分类模型。从数据预处理(中文分词、停用词过滤、文本向量化)到模型构建(双向LSTM+池化层),详细说明了每个步骤的实现方法。模型采用交叉熵损失函数,加入学习率调度和早停机制优化训练过程。代码包含完整的训练、评估和预测流程,自动处理目录创建和数据检查,可直接运行。最终模型能对酒店评论进行正面/负面二分类,测试准确率可达较高水平。文中还提供了数据集格式示例和生成方法,方便读者快速复现实验。

2025-07-24 20:13:05 898

原创 【混淆矩阵】PyTorch 实现 MNIST 模型混淆矩阵生成:从代码到可视化全流程

本文详细介绍了使用PyTorch和MNIST数据集生成混淆矩阵的完整流程。首先定义了一个简化版LeNet网络模型,通过验证集推理获取预测结果和真实标签;然后利用sklearn.metrics计算混淆矩阵,并通过matplotlib进行可视化展示。文章提供了可直接运行的完整代码,包括模型加载、数据预处理、结果收集和可视化等步骤。混淆矩阵能有效识别模型在数字识别中的易混淆类别(如6和9),帮助定位模型弱点并指导优化方向。该方法适用于各类分类任务,为模型性能评估提供了直观可靠的工具。

2025-07-21 19:33:21 934

原创 【计算机视觉模型训练】基于 SE 注意力机制的 GoogleNet模型训练【识别蝴蝶数据集】【6500张图片75分类】

本文提出一种融合SE注意力机制的改进GoogleNet模型,用于蝴蝶种类识别任务。该模型结合GoogleNet的多尺度特征提取能力和SE通道注意力机制,通过SE模块动态学习特征通道权重,增强关键特征抑制噪声。具体实现包括:1)构建SEBlock模块,通过全局平均池化和全连接层学习通道权重;2)将SE机制嵌入Inception模块,形成多分支并行结构;3)采用迁移学习策略初始化模型权重,冻结底层参数提升训练效率。实验结果表明,该模型在蝴蝶分类任务中表现优异,准确率显著提升。文章提供了完整代码实现,涵盖数据加载

2025-07-21 15:42:07 1594

原创 [释放磁盘空间利器]SpaceSniffer 的下载与使用![2025年7月][清理c盘]

SpaceSniffer是一款免费的磁盘空间分析工具,通过可视化界面直观展示文件占用情况(方块大小与占用空间成正比),帮助用户快速定位大文件和文件夹。支持按文件类型、大小筛选,适合磁盘清理和管理。下载步骤:访问官网→点击下载→解压到指定文件夹→运行程序选择磁盘即可查看空间使用情况。操作简单,能有效解决磁盘空间不足问题。

2025-07-17 19:58:43 3669

原创 【模型转换】PyTorch 模型转 ONNX 并部署推理全流程[以数字识别模型为例]

本文介绍了将PyTorch模型转换为ONNX格式的完整流程。以LeNet-5结构的MNIST手写数字识别模型为例,详细说明了模型定义、格式转换和推理验证三个关键步骤。重点讲解了如何使用torch.onnx.export进行模型转换,包括输入示例设置、动态维度配置等注意事项,并演示了通过ONNXRuntime进行推理验证的方法。该转换过程使模型能够在不同深度学习框架和平台间实现互操作,为模型部署提供了便利。文章还提供了完整的Python实现代码和相关环境配置说明。

2025-07-17 16:28:07 1174

原创 [TensorBoard]PyTorch 中 TensorBoard 的全方位使用指南:从入门到实战(附完整 MNIST 代码案例)

本文介绍了TensorBoard可视化工具在PyTorch框架下的应用,通过MNIST数字识别案例演示了其核心功能。主要内容包括:1)通过SummaryWriter记录训练日志;2)使用add_graph可视化模型结构;3)利用add_image展示训练样本;4)通过add_scalars跟踪损失和准确率等指标。文章提供了完整的可运行代码,包含数据预处理、模型训练、验证和测试流程,并自动创建项目目录结构。案例展示了如何利用TensorBoard监控训练过程、分析模型性能,帮助开发者更直观地理解模型行为和数据

2025-07-16 16:26:14 1255

原创 [模型训练]基于 PyTorch 实现 MNIST 手写数字识别(附完整代码与详解)

摘要:本文基于PyTorch框架实现了一个类似LeNet-5的卷积神经网络(CNN)用于MNIST手写数字识别任务。模型采用"卷积层+池化层+全连接层"结构,包含两个卷积块(5x5卷积核)和三个全连接层。训练过程使用Adam优化器和交叉熵损失函数,10轮训练后准确率达98%以上。测试阶段通过预处理(灰度转换、尺寸调整和背景反转)确保输入数据与训练分布一致,并关闭梯度计算加速推理。代码自动下载MNIST数据集并创建目录,包含完整的训练、测试流程和模型保存功能,适合深度学习初学者实践参考。

2025-07-15 17:17:49 1860 1

原创 [模型训练]PyTorch CNN实例训练

本文基于PyTorch框架实现了一个轻量级CNN模型AppleNet,用于青苹果和红苹果的二分类任务。模型采用两层卷积+两层全连接结构,包含数据增强、训练评估全流程。通过ImageFolder加载数据,使用交叉熵损失和Adam优化器进行训练,并实现学习率动态调整。测试结果显示模型能有效区分两类苹果,代码完整展示了从数据处理到模型部署的深度学习流程,适合入门者学习参考。项目涵盖GPU内存优化、模型保存等实用技巧,参数仅约61万,具有轻量化特点。

2025-07-14 17:29:18 611

原创 [深度学习]神经网络权重初始化方法详解:从原理到 PyTorch 实现

本文探讨了深度学习模型训练中的权重初始化方法及其重要性。合适的初始化策略能够加速收敛、提升性能并避免梯度问题。文章介绍了三种主流初始化方法:基础随机初始化(均匀/正态分布)、针对Sigmoid/Tanh的Xavier初始化,以及专为ReLU设计的Kaiming初始化,并提供了PyTorch实现示例。通过对比分析,文中指出应根据网络结构和激活函数类型选择初始化方法:Sigmoid/Tanh适用Xavier,ReLU适用Kaiming。合理的初始化策略是改善模型训练效果和加速收敛的关键步骤。

2025-07-10 18:58:31 1029 2

原创 深度学习利用 PyTorch 导入构建图像数据集

本文介绍了PyTorch处理图像数据的两种方法。第一种是自定义数据集类,通过继承Dataset类实现数据的灵活读取与预处理,适合特殊需求场景,但代码量较大。第二种是使用ImageFolder工具,能快速加载按类别分文件夹存放的图像数据,自动处理标签分配,代码简洁但灵活性有限。两种方法各有优势,开发者可根据实际需求选择合适的数据加载方式。文章通过代码示例详细展示了两种方法的实现过程及其适用场景。

2025-07-09 17:22:29 599

原创 深度学习基于PyTorch 实现线性回归:从手动梯度下降到框架 API

本文介绍了使用PyTorch实现线性回归的两种方法。第一种是手动实现梯度下降优化,包括数据准备、参数初始化、训练循环(前向传播、损失计算、反向传播和参数更新)的完整流程。第二种方法利用PyTorch内置API,通过nn.Linear定义模型、nn.MSELoss计算损失、optim.SGD优化参数,简化了实现过程。两种方案都成功拟合了y=2x+1的线性关系,验证了PyTorch在机器学习基础模型实现中的高效性和灵活性。

2025-07-08 19:06:19 592

原创 Android 智能聊天应用开发:基于讯飞星火 API 的实时对话实现

摘要:本文介绍了一个基于讯飞星火API的Android聊天应用实现方案。该应用具备用户输入、AI流式响应、消息区分展示等核心功能,采用WebSocket进行实时交互。系统架构包含消息数据模型(Message)、适配器(MessageAdapter)、主活动(MainActivity)和API交互类(SparkApiHelper)四大模块。关键技术包括:1)流式响应处理实现打字效果;2)HMAC-SHA256签名确保API安全;3)多层错误处理机制。项目采用RecyclerView展示消息,通过差异化布局区分

2025-07-02 19:37:35 1477

原创 纯干货,无废话CUDA、cuDNN、 PyTorch 环境搭建教程

本文详细介绍了深度学习开发环境的配置步骤。首先通过nvidia-smi命令查看显卡支持的CUDA版本并安装对应版本,然后下载匹配的cuDNN。接着安装Anaconda并创建Python环境,最后安装与CUDA版本兼容的PyTorch(如CUDA 12.9对应cu121)。最终通过运行测试代码验证环境是否配置成功,检查PyTorch版本、CUDA可用性及cuDNN版本是否正确。该指南帮助开发者快速搭建完整的深度学习开发环境。

2025-07-02 09:15:18 815

原创 Python 使用 OpenCV 实现图像水印添加

本文介绍了使用Python和OpenCV实现图像水印添加的方法。通过读取logo和背景图像,先将logo转换为灰度并进行二值化处理,生成黑白两种掩码。然后调整掩码尺寸与背景区域匹配,使用按位与操作分别提取logo的白色部分和背景的黑色区域,最后将两者叠加生成水印效果。该方法可以有效保护图像版权,代码展示了完整的图像处理流程,包括图像读取、灰度转换、阈值处理、掩码操作及结果展示等关键步骤。

2025-06-30 20:10:50 466

原创 Python基于 OpenCV 的视频与图片互转实现

本文介绍了使用OpenCV和Python实现视频与帧图片相互转换的技术。视频转帧功能可设定保存间隔,将视频逐帧或按间隔保存为图片;帧图片转视频则可将图片序列合成为视频。文章提供了详细的核心函数定义和使用示例,包括路径参数设置和间隔帧数控制,完整解析了两种转换的实现方法,为计算机视觉和视频处理领域的基础操作提供了实用解决方案。

2025-06-30 19:23:05 359

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除