- 博客(23)
- 收藏
- 关注
原创 【无标题】
本项目旨在开发一个智能视觉识别系统,结合硬件控制,实现对特定物料的颜色、图案和角度识别,并根据识别结果控制翻转机构进行相应操作。系统主要由基于 PyQt5 的用户界面、后端视觉识别服务和硬件通信模块组成。实际效果如下所示。
2025-12-22 08:48:16
845
原创 神经网络设计中关于BN归一化(Normalization)的讨论
问题 1:为什么把特征强制为 0-mean,1-var 会限制网络表达能力?γ,β 为什么解决这个问题?直觉理解问题 2:推理阶段没有 batch 的概念或 batch 很小是什么意思?问题 3:标准化消除了输入尺度对激活的影响,减小参数尺度与优化耦合,有哪些地方被标准化了?
2025-08-15 10:47:54
1367
原创 Python进阶:彻底搞懂 Python 装饰器:从闭包到 FastAPI 的实战全景图
的行为,即使外部函数已经执行完毕。✅ 示例 1:闭包基本形式。
2025-08-08 16:30:51
1018
原创 RAG初步实战:从 PDF 到问答:我的第一个轻量级 RAG 系统(附详细项目代码内容与说明)
📌 项目总结本项目以“从0搭建一个轻量级 RAG(Retrieval-Augmented Generation)语义搜索原型系统”为目标,围绕 LangChain 的文档处理工具链,结合 HuggingFace 本地向量化模型 BAAI/bge-small-zh 和高效的向量数据库 FAISS,完成了一个完整闭环的流程:✅ 从 PDF 文档中提取文本并进行智能切分;✅ 使用本地 embedding 模型对文本块进行向量化;✅ 构建 FAISS 本地向量数据库,实现高效查询;
2025-08-08 14:01:43
2484
原创 向量数据库基础夯实:相关概念的详细介绍
对于传统数据库,基本操作包括创建、读取、更新和删除记录。向量数据库的许多操作与此类似,但针对向量的复杂性进行了优化。
2025-08-06 15:19:41
704
原创 向量数据库基础入门:RAG 与向量检索基础认知构建
嵌入模型将一段文本变成一个固定长度的高维向量:“图神经网络是一种处理图结构数据的模型”-> [1,2,3]模型优势是否开源OpenAI 出品,泛用性强❌bge-m3中文效果非常好✅E5GTE英文任务性能优✅文本是如何被向量化的?(向量检索底层机制)文本嵌入就是:将自然语言文本编码为一个向量(向量表示其语义特征)。举例说明:输入句子:“图神经网络可以用于社交网络分析”输出向量:一个 768 维的浮点数组,比如:是句子还是词?——取决于模型类型嵌入模型输入粒度输出向量代表。
2025-08-06 11:39:40
1079
原创 Fastapi框架总览与核心架构
🚏 路由定义:“路由”就是 URL 到处理函数的映射。在 Web 框架中,用户访问 /users/123,系统就需要知道该调用哪个函数来处理这个请求,这个“地址 → 函数”的映射关系就是路由。
2025-07-15 22:47:39
1271
原创 [特殊字符] Gradio 框架总览与核心架构
Gradio 是一个用于快速构建 Web 界面的 Python 框架,广泛用于 AI 模型可视化、交互式演示。它基于 FastAPI 后端 + Svelte 前端 构建,具备高度组件化、异步队列支持、组件状态同步、轻量打包等特性。
2025-07-15 11:44:47
1429
原创 openavatarchat项目的远程GPU的部署流程
OpenAvatarChat部署指南(摘要) 本项目提供裸机手动部署和Docker容器两种方式: 裸机部署流程: 克隆项目并创建Python 3.11环境 分阶段安装依赖(推荐先装PyTorch) 模型建议本地下载后上传(自动下载易卡顿) 可选生成SSL证书和coturn服务器 可通过修改YAML配置文件切换不同模型组合 Docker部署: 克隆项目后直接运行build_and_run.sh脚本 或手动构建镜像并运行容器 需提前在models/目录准备好模型文件 注:两种方式均需确保模型文件完整(MiniC
2025-07-14 11:52:42
1317
原创 OpenAvatarChat数字人项目结构分析
OpenAvatarChat数字人项目分析摘要(150字): OpenAvatarChat是一个实现智能语音数字人交互的开源项目,核心功能包括语音输入处理、AI对话生成和3D形象输出。项目采用模块化设计,主要包含:1)前端交互层处理用户语音输入;2)语音处理模块(VAD检测+ASR转文本);3)LLM对话引擎生成回复;4)TTS语音合成;5)3D渲染引擎展示数字人动画。通过配置文件定义不同场景的组件组合,支持云服务/本地模型混合调用。关键技术栈涵盖Silero VAD、SenseVoice ASR、GPT类
2025-07-11 14:47:01
2979
原创 目标检测neck算法之MPCA和FSA的源码实现
使用的Frequency-Spatial Attention和Multi-scale Progressive Channel Attention改进neck.接下来,我将讲解它的源码操作的实现,结构的设计哲学,已经代码复现需要的一些基本功知识它的结构如下。
2025-06-22 20:24:09
1448
原创 目标检测neck经典算法之FPN的源码实现
本文介绍了FPN(特征金字塔网络)的初始化构造过程,主要包括5个关键步骤: 参数保存与基础配置:确定输入通道数、输出通道数、特征层数等核心参数,并进行初始化设置和断言检查。 确定使用的backbone层:通过start_level和end_level参数选择从主干网络中使用哪些层来构建FPN。 判断是否添加额外输出层:控制是否构建P6/P7等额外特征层,并指定其构建方式。 构建横向连接和FPN卷积层:创建1×1卷积统一通道(lateral convs)和3×3输出卷积(fpn convs)。 构建额外卷积层
2025-06-20 16:18:40
1240
原创 七天速成数字图像处理之七(颜色图像处理基础)
本文摘要(150字): 数字图像处理中的颜色图像处理基础包含四大核心内容:1) 颜色模型(RGB/HSV/YCrCb/Lab)的结构与应用场景对比;2) 使用OpenCV实现颜色空间转换的代码实践;3) 颜色通道分离合并及增强技术;4) 伪彩色处理原理与实现方法。通过Python代码示例演示了各颜色模型的转换方法、通道操作技巧,以及如何应用伪彩色映射增强图像可视化效果。教程强调实践应用,指导读者根据任务需求选择合适颜色空间,并掌握通道处理、颜色增强等关键技术,适用于医学影像、热成像、工业检测等多个领域。
2025-06-19 18:54:58
1988
原创 七天速成数字图像处理之六(形态学处理)
本文介绍了数字图像处理中的形态学处理方法。主要内容包括:形态学基础概念和结构元素定义;四大基本操作(腐蚀、膨胀、开运算、闭运算)的原理、效果和应用场景;三种高级形态学运算(顶帽变换、黑帽变换、形态学梯度)的功能公式和典型用途;以及灰度形态学的特殊处理方式。文中通过Python代码示例展示了各种形态学操作的实际效果,并列出了核心操作的对比表格。形态学处理主要用于图像去噪、边界分析、目标提取等任务,是数字图像处理领域的重要技术。
2025-06-18 23:07:22
1089
原创 七天速成数字图像处理之五(图像分割)
图像分割是数字图像处理的核心任务,旨在将图像划分为具有一致特征的区域。本文系统介绍了图像分割的概念、分类和经典方法,重点讲解了大津法和分水岭算法。大津法通过计算最大类间方差自动确定最佳阈值,适用于二值分割;分水岭算法模拟积水过程,能有效分割接触物体。文章还提供了Python实现示例,展示了这两种算法在实际图像处理中的应用效果。最后简要介绍了图像分割在医学影像、自动驾驶等领域的广泛应用。
2025-06-09 18:10:53
1375
原创 七天速成数字图像处理之四(图像恢复)
图像恢复(Image Restoration) 是指通过一定的数学方法和计算模型,从被噪声干扰或退化(如模糊、遮挡、畸变)后的图像中尽可能恢复出原始图像的真实样貌。与图像增强(Image Enhancement)不同,图像增强强调主观视觉效果的提升,例如让图像“看起来更清晰”,而图像恢复则更侧重于客观还原图像信息,尽量逆转图像退化过程,属于一种基于模型的反问题求解过程。
2025-06-06 23:28:30
684
原创 七天速成数字图像处理之三(图像增强)
操作类型算子名称功能应用场景平滑(模糊)均值滤波(Mean Filter)用于去除噪声,减小图像细节图像去噪、模糊图像、消除小噪声高斯滤波(Gaussian Filter)平滑图像、去噪,保留边缘信息图像平滑、噪声抑制、边缘保留锐化处理拉普拉斯算子(Laplacian)增强图像的边缘,使图像更加锐利边缘增强、图像细节突出Sobel算子(Sobel Operator)检测图像中的水平和垂直边缘边缘检测、图像锐化、边缘提取边缘检测Prewitt算子(Prewitt)
2025-06-04 20:24:26
1388
原创 七天速成数字图像处理之二(数字图像的图像变换,以傅里叶变换为例,从空间域到频率域)
频域变换通过将图像从空间域转换到频率域,帮助我们更好地分析和处理图像中的频率成分。常见的频域变换包括傅里叶变换、离散余弦变换(DCT)和小波变换等,它们在图像去噪、压缩、边缘增强等方面有广泛应用。在实际应用中,频域变换与滤波技术相结合,可以有效地提高图像质量并减少噪声。变换类型核心思想数学形式常用用途计算复杂度是否可逆是否使用复数傅里叶变换(FT)将图像表示为正弦/余弦波的频率叠加复数指数函数图像滤波、频谱分析较高(可用 FFT 优化)是是快速傅里叶变换(FFT)
2025-06-03 17:25:28
1327
原创 七天速成数字图像处理之一(数字图像的基础知识,图像的数字化及表达,图像的基本运算)
摘要 数字图像处理的基础知识包括图像的定义、表示方法、存储方式和颜色模型。图像由像素矩阵组成,分为灰度、彩色和二值三种类型,其维度由宽度和高度决定,深度则影响颜色范围。常见存储格式有BMP、JPEG和PNG,颜色模型包括RGB、HSV、YCbCr和Lab。图像处理可分为空间域和频域操作,数字化过程涉及采样(离散化空间)和量化(离散化亮度值),采样精度直接影响图像分辨率。不同颜色模型在AI和图像处理中各有优势,如RGB用于分类检测,HSV更适合颜色分割,YCbCr用于视频压缩,而Lab则适合颜色校正。
2025-06-02 14:57:19
1221
原创 图像边界检测的认识(以Canny算法与Hough变换圆检测为例)
本文以Canny算法和Hough变换圆检测为例,介绍了图像边界检测的核心流程。首先通过高斯滤波去除噪声,保留主要边缘信息;然后使用Sobel算子计算梯度幅值和方向;再进行非极大值抑制细化边缘。文章详细解析了Canny算法的五个关键步骤,并解释了高斯滤波虽会模糊图像却有助于边缘检测的原因:它抑制噪声干扰而不损伤真实边缘,使梯度计算更准确。通过代码示例展示了图像预处理和梯度计算过程,为后续边缘检测奠定了基础。
2025-05-30 18:51:13
1397
原创 目标检测的初步实战,有关圆形轮廓的提取
作用:用最小二乘法拟合一组 2D 点为圆;(感兴趣的自行了解一下最小二乘法的拟合原理)返回 圆心坐标 (xc, yc) 和 半径 r;
2025-05-29 23:39:03
1302
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅