穆友航-优快云博客

原创 ViT系列网络系统性分析：从架构创新到未来趋势

Vision Transformer（ViT）系列模型在2020-2023年间经历了从奠基到优化的快速发展。奠基期（2020-2021）通过ViT、DeiT、Swin Transformer等模型验证了Transformer在视觉任务中的可行性，解决了数据依赖、计算效率等问题。优化期（2022-2023）则聚焦效率提升和泛化能力突破，采用多尺度特征融合、轻量化设计等技术。研究表明，随着模型规模扩大（如图中Jumbo ViT所示），ViT系列在准确率上呈现显著提升，逐渐成为替代CNN的通用视觉主干网络。

2025-08-25 22:09:31 1084

原创 SeeMoE：从零开始实现一个MoE视觉语言模型

本文介绍了使用PyTorch从零实现SeeMoE混合专家视觉语言模型的方法。该模型包含三个核心组件：图像编码器（采用CLIP风格的ViT）、视觉-语言投影模块（MLP实现维度转换）和混合专家解码器（基于nanoGPT架构改进）。关键创新在于将传统Transformer块中的前馈网络替换为稀疏MoE模块，该模块包含多个专家MLP和噪声Top-K门控机制，实现仅激活部分专家的高效计算。通过详细展示路由模块和专家组合的实现代码，阐明了混合专家模型的工作原理。

2025-07-29 16:09:35 1108

原创【小工具】基于像素分布相似度匹配算法的录屏转长图代码实现-非常高效

本代码实现了一个视频处理工具，主要功能包括：1. 从视频中提取关键帧（每30帧提取一帧）。2. 通过图像拼接技术将提取的帧合并为一张长图。代码的核心逻辑是通过计算帧之间的相似度，找到最佳拼接位置，从而实现无缝拼接。

2025-06-05 20:03:46 424

原创在Transformers生态中解锁timm模型全能力：推理加速、量化部署与零门槛微调

通过全新的TimmWrapper工具，您可以在熟悉的🤗 Transformers生态中为timm模型实现以下功能：⚡ 闪电般推理速度 | 🛠️ 5行代码完成量化 | 🚀 torch.compile加速支持 | 🎯 零门槛微调timm前置准备：安装最新版和完整代码示例与Notebook：🔗。

2025-04-16 14:24:44 906

原创 SmolVLM新模型技术解读笔记

全球最小视觉语言模型SmolVLM-256M（2.56亿参数）及其高性能兄弟版SmolVLM-500M（5亿参数），通过三大技术革新实现“小模型大能力”：视觉编码重构：采用93M参数SigLIP base编码器，支持更高分辨率（384x384），性能接近400M级编码器，体积缩减77%；数据混合优化：强化文档理解（41%）与图像描述（14%）数据配比，提升OCR、图表推理等任务表现；Token压缩技术：图像编码效率提升125%（4096像素/Token），分隔符Token压缩85%

2025-04-15 19:50:07 969

原创从零开始训练Codebook：基于ViT的图像重建实践

Codebook是一种离散表征学习方法，其核心思想是将连续特征空间映射到离散的码本空间。

2025-04-03 23:49:42 711

原创【经验记录】在windows电脑上使用Docker-Desktop部署searXNG搜索引擎

searXNG

2025-02-16 15:25:04 660 1

原创【开源代码】基于计算机视觉的图像水印检测和去除系统-仅依赖opencv进行水印/LOGO检测-消除用图像处理或者深度学习模型

这个系统展示了如何将传统计算机视觉技术与现代深度学习方法相结合，创造出一个实用的图像处理工具。它不仅能够准确识别和去除水印，还能保持图像的自然性和连续性。该系统的模块化设计也使得它易于维护和扩展。

2024-12-06 17:37:11 2486

原创【开源代码】DeepGIN图像修复\图像水印消除-基于pytorch框架和CNN模型。

所提议的模型描述了一个复杂的图像修复架构，特别是利用深度生成修复网络（Deep Generative Inpainting Network，简称 DeepGIN）。(1)生成器G1（粗略生成器）：该生成器在粗略重建阶段工作, 主要功能是对缺失区域进行粗略估计。G2（精细生成器）：该生成器在精细化阶段工作，接收 G1 的输出，并通过添加更精细的细节和纹理来增强图像，最终生成完整的图像。(2)判别器D1 和 D2：这两个判别器是条件多尺度判别器区域的一部分。它们仅在训练阶段使用，以促进生成对抗训练。

2024-12-06 16:58:27 876

原创【开源代码】图像水印移除-依赖python-tensorflow

示例图像：https://user-images.githubusercontent.com/51057490/140277713-c7d6e2b9-db62-4793-823a-25ed0c4e2771.png。链接：https://pan.baidu.com/s/131E1PMTURjyxG5qR3EASBQ。需要提前有对应的MASK图像，要么自己PS做，要么用技术生成mask，待探索。（试了anaconda的powershell窗口不行，报git找不到的错误）放入源码目录model下。

2024-12-01 19:51:51 659

原创【开源代码】MinerU-PDF解析工具部署-CPU/GPU加速推理-可转Markdown格式

【代码】【开源代码】MinerU-PDF解析工具部署-CPU/GPU加速推理-可转Markdown格式。

2024-11-20 19:35:23 1715 1

原创使用opencv和PIL矫正带有EXIF信息的图像

【代码】使用opencv和PIL矫正带有EXIF信息的图像。

2024-11-19 19:15:39 323 1

原创【Unity从零开始学习制作手机游戏】第01节：控制3D胶囊体运动

下载 StandardAssets。使用3D Mobile模板。

2024-05-13 22:30:25 329

原创基于百川大语言模型的RSS新闻过滤应用【云服务器+公网网页，随时随地看自己DIY订阅的新闻内容】

目前从公众号、新闻媒体上获得的新闻信息，都是经过算法过滤推荐的，很多时候会感到内容的重复性和低质量，因为他们也要考虑到自己的利益，并非完全考虑用户想要的、对用户有价值的信息。这时，如果要获取自己认为重要的信息，定制化开发自己的筛选算法更好。

2024-05-13 20:22:43 1169

原创【量化分析】Demo版：获取stock市场往日数据并预测未来两周走势

【代码】【量化分析】Demo版：获取stock市场往日数据并预测未来两周走势。

2020-09-26 16:01:34 558 1

原创【OpenCV C++ 源码开放】基于遗传算法解决旅行商问题的迭代过程可视化原型系统

图像化展示旅行商问题求解过程，源码和代码仓库见正文。

2020-04-06 17:21:14 1492 6

原创【资料整理】基于RGB摄像头的激光鼠控原型系统

摄像头捕获激光笔照射在屏幕上的位置，算法提取屏幕显示区域，计算激光位置为屏幕的坐标位置，调用系统接口，控制鼠标移动。RGB摄像头，红色激光笔/激光灯。

2020-04-06 16:03:51 406

原创三维人脸识别演示系统

目前，人脸识别技术在日常生活中得到了广泛应用,该技术具有非强制性、非接触性和并发性等优势，用户体验非常友好。其中，三维人脸识别技术对于人脸的光照和姿态变化更为鲁棒，并且安全系数较高，不过高精度传感器的成本和体积限制了其广泛应用的可能。而随着消费级深度传感器的出现，使得三维人脸识别技术的广泛应用成为可能。在三维人脸识别的整个流程中，主要会涉及到采集设备、数据集和识别方法。高精度的采集设备体积大、价格高，低精度的采集设备体积小、价格低，在应用上更具有优势，但在数据质量上表现较差。

2020-03-08 11:49:41 1743 8

原创【Tensorflow 1.X】不同接口下实现MNIST手写数字识别

【代码】【Tensorflow 1.X】不同接口下实现MNIST手写数字识别。

2020-02-17 19:59:16 435 1

原创【MXNet C++】人脸检测与口罩识别（提供c++源码、mxnet模型文件、win演示程序安装包）

一个用以检测戴口罩人脸的工程，基于MXNet、OpenCV开源框架，使用C++语言实现。见文章末尾github仓库。口罩佩戴与否识别-演示视频。见文章末尾百度云盘地址。

2020-02-12 14:55:35 4745 17

原创【Matlab】Tricks/功能代码记录

绘图时隐藏坐标轴：axis off;调整图像视角：view(0,90);保存figure图像：saveas(gcf,'f1.png');不定时更新。。。

2020-02-11 16:34:45 218

原创【3DFR Python】convertDepth2Normal：从深度图计算法向图

【代码】【3DFR Python】convertDepth2Normal：从深度图计算法向图。

2019-12-22 00:01:47 6084 13

原创【3DFR Matlab】从深度图像中提取三维人脸数据

软件：Matlab R2017a。主函数代码（其余参考git仓库。

2019-12-21 23:20:45 1311 1

原创【3DFR Matlab】基于三维数据的彩色人脸旋转

【代码】【3DFR Matlab】基于三维数据的彩色人脸旋转。

2019-12-21 23:01:27 974 6

原创细数提高模型性能的n种方法

对于多分类问题，最常用的方法是softmax，其改进版本L-softmax（添加乘性margin），A-softmax（归一化权值，margin），可以比较好的拉大类间的距离。对于细粒度分类问题，facenet提出的triplet loss是一个广为使用的方法，可以约束正负样本对之间的距离间隔，十分适用于开集验证问题。使用任意两个类别的数据单样本，进行线性差值，得到新的数据和新的标签。当前流行的有BN、LN、IN、GN方法，根据自身任务的类型，例如分类、检测、分割、生成任务，挑选合适的功能层。

2019-08-22 17:00:27 2024

原创【Paper & Code】（CVPR2019）Octave Convolution

亮点分离图像数据中的高频和低频信息，降低低频信息的分辨率，保持高频信息的分辨率，减少了整体运算量。论文介绍代码MXNet Symbol接口下的实现：OctConv...

2019-05-19 14:16:58 527 2

原创【MXNet Symbol】访问模型权值参数

关于这个的用途，主要是分析模型内部的参数，可视化一系列权重信息。

2019-05-19 14:10:07 575 1

原创【MXNet Gluon】模型训练使用多块显卡加速（multi-gpu)

【代码】【MXNet Gluon】模型训练使用多块显卡加速（multi-gpu)

2019-01-07 15:58:20 3445 2

原创【MXNet C++】使用预训练模型进行特征提取

【代码】【MXNet C++】使用预训练模型进行特征提取。

2018-12-18 08:46:25 1121 1

原创【C++】遍历文件夹及其所含文件

代码功能：读取文件夹下的所有文件，获得其路径。

2018-12-18 08:33:42 1495 1

原创【OpenCV 4.0 C++】 Kinect Fusion 使用

文章末尾见 github代码仓库。参考这篇博客，特别的要，这样才能使用kinect fusion算法。：代码使用到的数据集。当使用自己的数据集时，应设置自己的cv::kinfu::params ,这涉及到frame_size等重要参数。默认参数如下。下面的代码是精简过的，去掉了摄像头的相关部分，毕竟一般也用不到。int。

2018-12-16 21:38:54 6340 16

原创【MXNet Symbol】手动实现数据迭代器之读取图像对

代码此代码用以读取图像对，可以用于图像分割、GAN等要求数据与标签都是图像的任务中。也可以用于多模态图像的应用。需要注意的是：不同类型数据对的文件名要一直，数据也要一致，否则会出现数据不匹配的错误，导致错误的实验结果。# -*- coding:utf-8 -*-import osimport cv2import numpy as npimport randomdef getImgL...

2018-12-10 00:40:00 364

原创【MXNet TX2】成功在TX2上编译MXNet源码，并使用GPU计算（踩坑与填坑）

但是，当你尝试执行gpu计算任务时，会提示 no kernel image **之类的错误。如果你是已经make完，遇到这个问题（既然你与本文有缘，相信肯定是的啦~~）而这是很重要的一步，因为它应该符合TX2的计算能力才可以。最终，可以开始TX2上MXNet的开发之旅啦~~这是因为在官网配置教程下，没有涉及到设置。

2018-08-03 23:04:43 2765 1

原创【MXNet Gluon】自己动手实现fit函数，实现断点保存

用过caffe的炼丹师应该都知道，在用caffe训练模型时，可以通过命令行窗口提前终止训练过程，caffe会自动保存当前状态的参数，以供继续训练。但是，对于MXNet，无论你使用何种接口，都不存在这种机制。

2018-07-29 22:15:51 1049 1

原创【MXNet Gluon】使用预训练好的模型fine-tune

finetune关键代码prenet=ResNet(466)net=ResNet(3400)ctx = [mx.gpu(i) for i in range(3)]if finetune ==1: prenet.load_params('params/net-%d.params' % (start_iter),ctx) #features为需要保留的模型参数，outpu...

2018-05-07 20:22:19 2909 1

原创【OpenCV】OpenCV3.4+OpenCV-Contrib 编译在windows10_x64+vs2015环境下

如图，选择源码和编译目录，选择Configure开始。【中间会下载东西，我有放梯子的~~要是不开不知道有没有影响】然后，选择opencv_contrib中的module文件目录，再一次configure。一切顺利，又得到的configuring done.然后Generate.右键Install，选择生成，开始编译。然后就是配置属性表了，easy~

2018-01-29 18:03:52 7828 10

原创【MXNet Gluon】基于斯坦福狗的品种分类数据集训练SSD检测模型

本文所使用的数据和模型可在优快云资源页下载。本文主要对原来的代码进行了整理，方便调用和训练。主要参考了Gluon的SSD例子。

2017-12-28 19:26:13 3638 2

原创【MXNet Symbol】多指标评价模型性能

MXNet 分类模型训练之采用多指标评价模型能力（accuracy,cross-entropy,top_k_accuracy）

2017-09-06 16:55:29 1696

原创【MXNet Gluon】目标检测数据集制作+SSD 模型训练

但是，在实际操作过程中我发现，A需要设置为4才好用。具体，可以参考数据集里的文件。通过修改data_shape 和数据集的路径，并可以开始你的模型训练。请下载上述数据集，内部包含图片+工具代码+lst文件例子。革命仍未成功，模型仍需训练。

2017-08-30 23:47:37 10059 15

原创图像分类系统之功能实现概要

OpenCV是一个计算机视觉库，可以运行于包括Linux、Windows、Android、Mac OS在内的众多操作系统上，完全由C/C++开发，提供Python、Ruby、Matlab、JAVA、C++、C接口，具有详细的文档资料支持。目前支持的图像特征有：SIFT、SURF、ORB、SIFT、LBP、HOG、颜色直方图，其中支持算法参数修改的有SIFT、SURF、ORB、LBP四种常用算法。“上一张”按钮的响应时间是显示当前图像在图像列表中的上一张图像，若当前图像为列表中第一张图像，则保持显示状态。

2017-06-22 23:38:59 3865 3

上海浦东新区的4553个小区列表csv文件，包含经纬度、名称、均价、邮编、年代

上海浦东新区的小区列表，共计4553个小区，几乎包含了所有。数据格式： ,lng,lat,district,township,adcode,area,year,price,name 0,121.687803,31.24525,浦东新区,合庆镇,310115,合庆,0,38000.0,环庆新苑 1,121.721987,31.231942,浦东新区,合庆镇,310115,合庆,0,36000.0,地纬家苑 2,121.732033,31.213857,浦东新区,合庆镇,310115,浦东 - 合庆 - 塘东街178弄,1998年竣工,21118,远东小区

2025-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

上海浦东新区的4553个小区列表csv文件，包含经纬度、名称、均价、邮编、年代

watermark-removal-model

watermark-removal-master

FCN Caffe Net

图片大小颜色归一化代码

MXNet gluon SSD code

edgebox完整资源（源代码+依赖包）（配置完matlab路径即可直接运行）

FCN数据集 图片和标签

mxnet ssd 用数据集

科罗拉多州立大学脑电数据1989

【书中彩色图片资源】《OpenCV3编程入门》书本配套资源

MXNet C++ API (CUDA 8.0, win x64 , without cudnn)

人脸识别类

人脸识别之PCA方法

【OpenCV2版】《OpenCV3编程入门》书本配套源代码

学习OpenCV(中文版)配套代码

OpenCV for Secret Agents_Python

OpenCV Essentials.pdf

Practical OpenCV

【OpenCV3版】《OpenCV3编程入门》书本配套源代码

OpenCV2 计算机视觉编程手册 配套源代码

深入浅出MFC简体中文版(附源码)

空空如也

FCN数据集图片和标签

OpenCV2 计算机视觉编程手册配套源代码