程序员Linc-优快云博客

原创五分钟了解智能体

智能体的终极形态，是构建能与我们共同进化的心智社会

2025-04-12 21:33:08 303

原创 RK3588芯片NPU的使用及编程入门：rknn_model_zoo的yolov5 c++ example源码解析

今天深入分析了rknn_model_zoo中YOLOv5的C++示例代码，包括：- 模型加载与初始化的完整流程（init_yolov5_model）- 图像预处理中的Letterbox实现细节- NPU推理过程的关键API调用（rknn_inputs_set/rknn_run）- 后处理中的置信度过滤与NMS实现

2025-04-11 20:00:00 839

原创 2025年的Android NDK 快速开发入门

十年前写过一篇介绍NDK开发的文章，今天看来已经发生了很多变化，NDK开发变得更加容易了。下面就写一篇当下NDK开发快速入门。**原生开发套件 (NDK) **是一套工具，使开发者能够在 Android 应用中使用 C 和 C++ 代码，并提供众多平台库。官方默认使用CMake作为构建工具。

2025-04-11 19:00:00 744

原创 RK3588芯片NPU的使用：Windows11 Docker中运行PPOCRv4例子

PPOCR-Det核心功能实现**文字区域检测**，基于DB++（Dynamic Binarization++）算法改进，支持多尺度特征融合和自适应阈值预测。

2025-04-10 20:00:00 446 1

原创写给新人的深度学习扫盲贴：ReLu和梯度

什么是梯度？梯度是多元函数在某一点处变化率最大的方向及其大小，是导数的多维推广。数学定义：对函数fx1x2xnfx1x2...xn∇f∂f∂x1∂f∂x2∂f∂xn∇f∂x1∂f∂x2∂f...∂xn∂f物理意义：梯度指向函数值增长最快的方向，梯度大小表示变化速率。

2025-04-09 20:00:00 749 1

原创 RK3588芯片NPU的使用：Windows11 Docker中运行MobileNet模型以及部署到开发板进行目标检测

Docker启动后，来到rknn_model_zoo中mobilenet的示例目录│ ├── cpp # Cpp项目例子，部署会用到 │ ├── model # 模型目录 │ │ ├── bell.jpg # 例子中用到的待检测图片 │ │ ├── download_model.sh # 下载模型脚本 │ │ └── synset.txt # ImageNet类别标签文件 │ └── python # Python工具链 | └── mobilenet.py # 核心工具脚本。

2025-04-08 20:00:00 918

原创 MobileNet简介：一个轻量化的神经网络架构|嵌入式与边缘计算

从V1到V4，MobileNet的演进体现了轻量化模型设计的三大趋势：**自动化架构搜索**、**硬件协同优化**与**通用性提升**。随着MobileNet V4在移动生态中的普及，边缘智能将加速渗透至智能安防、工业检测、远程医疗等领域。

2025-04-07 20:00:00 991

原创 RKNN-Toolkit2支持的深度学习框架技术浅析：Caffe、TensorFlow、TF Lite、ONNX、DarkNet与PyTorch

RKNN-Toolkit2支持的深度学习框架包括Caffe、TensorFlow、TensorFlow Lite、ONNX、DarkNet和PyTorch。

2025-04-06 09:00:00 880

原创 RK3588芯片NPU的使用：Windows11使用RKNN Docker运行YOLOv5目标检测模型

瑞芯微的NPU工具集调整后放到新的仓库，名曰，它包括toolkit2和toolkit-lit2，以及rknpu2。下面简单介绍这三个库都是干什么的。

2025-04-05 09:00:00 1026 1

原创 RK3588芯片NPU的使用：Ubuntu 22.04安装RKNN SDK V2.3.0环境运行YOLOv5目标检测模型（万字详述）

本文详细介绍了在 **Ubuntu 22.04** 系统下搭建 **RKNN SDK V2.3.0** 开发环境的完整流程，并实现了在 **RK3588 开发板（Android 系统）** 上通过 **NPU 加速** 运行 **YOLOv5 目标检测模型**（万字详述）。

2025-04-04 03:00:00 809

原创写给新人的深度学习扫盲贴：向量与矩阵

张量是更高维度的推广：标量（0阶）、向量（1阶）、矩阵（2阶）、三维张量（3阶）等。例如，RGB图像可表示为三维张量（高度×宽度×通道数）。：矩阵用于表示线性变换、数据集（如图像像素矩阵）或多变量关系。例如，在Python中，矩阵以二维数组表示（如。：向量常用于描述空间中的点、力、速度等具有方向性的量。在计算机中，向量通常以一维数组存储（如NumPy中的。矩阵是二维数组，由行（row）和列（column）构成，可视为2阶张量。的一维数组，可视为1阶张量。向量是线性代数中的基本对象，定义为具有。

2025-04-03 20:00:00 898

原创边缘检测技术现状初探2:多尺度与形态学方法

实际应用中常使用离散近似核（如9×9核，σ=1.4）提取高频信息，实现多分辨率边缘检测。模拟小波多尺度分解，通过。多尺度边缘检测通过在。

2025-04-02 20:00:00 650

原创边缘检测技术现状初探1

边缘检测是计算机视觉与图像处理领域的基石技术，其**核心目标**是通过识别图像中亮度、色彩或纹理的突变区域，提取物体轮廓与结构信息。随着工业自动化、自动驾驶、医学影像分析等领域的快速发展，边缘检测技术经历了从传统算子到深度学习模型的演进，并在实际应用中不断崭露头角。

2025-04-01 20:00:00 832

原创 OCR第三个方案：PP-OCRv4的初步探索

PP-OCRv3（2022）：采用SVTR识别架构，中文识别准确率突破80%PP-OCRv4（2023）：融合Transformer与CNN的混合架构，实现多维度性能突破

2025-03-31 20:00:00 1710

原创探索OCR的第二个方案：EasyOCR

EasyOCR是由Jaided AI团队开发的开源OCR引擎，基于PyTorch深度学习框架构建，支持80+种语言的文本识别，包含简体中文(ch_sim)、繁体中文(ch_tra)、英语(en)等主流语言。多场景适应：支持自然场景文本、文档密集文本、手写体等多种类型端到端流程：集成CRAFT检测模型+CRNN识别模型的完整解决方案硬件加速：支持GPU加速推理（CUDA/MPS）与CPU模式灵活扩展：允许用户自定义识别网络和模型存储路径。

2025-03-30 10:00:00 840

原创 Tesseract OCR技术初探(Python调用)

Tesseract是由HP实验室于1985年研发的光学字符识别引擎，2005年由Google开源并持续维护至今。其核心技术经历了三个阶段演进：

2025-03-29 20:00:00 969

原创药盒日期识别技术初步设想V1.0

硬件配置多光谱成像模块使用3组环形LED光源（白光、红外850nm、紫外365nm）多角度照射例：钢印在红外光下因材质吸热差异形成热成像轮廓，紫外光激发喷码荧光物质高速工业相机选型高速工业相机：例如Basler acA4112-20um（4096×3000分辨率，300fps），搭配远心镜头消除透视畸变触发同步装置光电传感器触发拍摄，确保药盒进入视场中心±2mm误差内成像参数优化钢印检测：采用偏振光成像抑制镜面反射，曝光时间≤1ms以避免运动模糊喷码检测：使用同轴光照明。

2025-03-29 10:00:00 647

原创认识一家公司：瑞芯微（Rockchip Electronics Co., Ltd.）以及旗下的两款芯片RK3288\RK3588

公司近期购置了两块开发板（Android），一个是RK3288另一个是RK3588。前者应对普通嵌入式场景，后者主打AI机器视觉（边缘计算设备）。下面找了些资料做个对比。一、制程与架构RK3288采用28nm HKMG 工艺，集成四核Cortex-A17CPU，主频最高1.8GHz，搭配，支持OpenGL ES 3.0、DirectX 11等图形接口。RK3588采用8nm LP 工艺，采用四核Cortex-A76（2.4GHz）+ 四核Cortex-A55（1.8GHz）

2025-03-28 22:00:00 1298

原创了解图像质量评价指标PSNR

峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）是数字图像处理领域最经典的客观质量评价指标之一。其核心思想是通过计算原始图像与失真图像之间的均方误差（MSE）来衡量失真程度，再通过信号最大功率与噪声功率的比值进行量化评估。对于大小为m×nm \times nm×n的灰度图像III和KKK均方误差（MSE）MSE1mn∑i0m−1∑j0n−1Iij−Kij2MSEmn1i0∑m−1。

2025-03-28 20:00:00 2009

原创《数字图像处理》第五章图像复原与重建学习笔记（5.1~5.3）

滤波器类型适用场景优点缺点算术均值滤波高斯噪声、均匀噪声计算简单边缘模糊逆谐波均值滤波盐粒/胡椒噪声（Q值控制）可定向抑制脉冲噪声需选择合适Q值中值滤波椒盐噪声保留边缘高密度噪声效果差自适应中值滤波高密度椒盐噪声动态窗口、细节保护计算复杂度高自适应局部降噪滤波非均匀噪声分布动态噪声估计需已知全局噪声方差。

2025-03-27 20:00:00 1867

原创《数字图像处理》第四章频率域滤波简要学习笔记以及频率域滤波与空间域滤波的区别

频率域滤波基于傅里叶变换，将图像从空间域（像素位置）转换到频率域（频率分量）。在频率域中，低频分量对应图像中灰度变化缓慢的区域（如背景），高频分量对应灰度剧烈变化的区域（如边缘和噪声）。这种转换使得滤波操作可以通过调整不同频率分量的幅值来实现，例如抑制噪声（高频）或模糊图像（低频）。

2025-03-26 20:00:00 2141

原创《数字图像处理》第三章 3.8 基于模糊技术的图像强度变换与空间滤波学习笔记

在传统图像处理中，灰度变换和空间滤波通常采用确定性数学方法（如直方图均衡化、均值滤波等）。但当面对图像中的不确定性（如光照不均、噪声模糊性、边缘过渡区）时，模糊逻辑（Fuzzy Logic）展现出了独特优势。

2025-03-25 20:00:00 478

原创《数字图像处理》第三章 3.7 混合空间增强法笔记：原理、实现与Python实战

混合空间增强法通过组合多种互补的增强技术，解决单一滤波器难以处理的复杂图像问题（如噪声干扰、动态范围狭窄等）。其核心思路是：根据冈萨雷斯教材，流程如下：

2025-03-24 20:00:00 401

原创《数字图像处理》第三章 3.6 锐化空间滤波器学习笔记：原理、实现与代码演示

锐化空间滤波器是一种**增强图像高频分量**的技术，其核心目的是**突出边缘、纹理等细节**，使图像在视觉上更清晰。与平滑（低通）滤波器不同，锐化滤波器通过放大灰度突变区域的梯度或二阶微分值来实现细节增强。

2025-03-23 10:00:00 563

原创普通人怎样用好DeepSeek？——AI革命中的个体跃迁指南

在这场人与AI的共舞中，真正的赢家不是技术恐惧者，也不是盲目崇拜者，而是那些深谙"AI思维"的实践者：他们知道如何用提示词唤醒模型潜力，懂得在数据洪流中守护人性温度，更善于在机器智能与人类创造力之间找到黄金分割点。当普通人握紧这把"数字瑞士军刀"，改变命运的密码，就藏在每一次与DeepSeek的深度对话之中。

2025-03-22 21:00:00 796

原创机器视觉中的相机标定：原理、方法与实践

相机标定（Camera Calibration）是指通过实验或算法手段确定相机的内部参数（如焦距、主点坐标、畸变系数）和外部参数（如旋转矩阵、平移向量）的过程。这些参数共同描述了相机的成像模型，使得三维空间中的物体能够被准确投影到二维图像平面上。相机标定作为机器视觉的基石，其精度直接影响整个系统的可靠性。传统方法如张正友标定法已成熟应用于工业场景，而自标定与深度学习技术正推动其在复杂环境中的普及。

2025-03-22 10:00:00 724

原创 Camera2 API拍照失败问题实录：从错误码到格式转换的排坑之旅

排错时别忘记：**设备兼容性检查清单**- 输出格式支持性验证- 对焦模式白名单检查- 最大分辨率兼容测试- HAL层日志的输出

2025-03-21 21:15:00 713

原创 3.5 平滑滤波

平滑线性滤波器是基于线性运算的空间滤波方法，通过对邻域像素进行加权平均实现噪声抑制。其核心特征是输出像素值为邻域像素的线性组合。主要的线性滤波器有均值滤波器高斯滤波器以及方框滤波器。统计排序滤波器属于非线性滤波，基于邻域像素值的排序结果选择输出值。gxy排序fxiyjij∈S→选择特定序位值g(x,y) = \text{排序}\{f(x+i,y+j)\}_{(i,j)\in S} \rightarrow \text{选择特定序位值}gxy排序fxiyji。

2025-03-21 15:00:00 570

原创《数字图像处理》第三章 3.4 空间滤波基础学习笔记

相关与卷积的区别：卷积需旋转滤波器180°，两者在对称核下等效。实践意义相关用于模式匹配（如边缘检测中的Sobel算子）。卷积用于线性系统建模（如高斯模糊）。边界处理：需根据场景选择策略，避免边缘失真。实际效果对比相关操作适合需要保留方向信息的场景（如梯度计算）。卷积操作更符合物理系统的响应特性（如光学成像）。

2025-03-20 15:00:00 1814

原创为什么大家都在推荐Jupyter Notebook？以及如何上手?

Jupyter Notebook 是一款基于 Web 的交互式计算环境，允许用户创建和共享包含实时代码、数学公式、可视化图表及文本说明的文档。它最初专为 Python 设计，但现已支持 40 多种编程语言（如 R、Julia、Scala 等），尤其成为。若安装失败，尝试添加 --user 参数或切换镜像源（如 -i https://pypi.tuna.tsinghua.edu.cn/simple）。若浏览器未自动打开，手动访问终端中显示的 URL（如 http://localhost:8888）。

2025-03-19 20:30:00 777

原创《数字图像处理》第三章3.3直方图处理学习笔记

直方图处理是数字图像增强的基础技术，均衡化与规定化分别适用于全局和特定对比度调整需求。Python实现中需注意离散灰度级的影响及插值方法的选择。实际应用中可结合CLAHE或分通道处理优化结果，同时需权衡增强效果与噪声控制。

2025-03-19 15:00:00 950

原创机器学习简史

站在AGI的门槛前，机器学习仍在书写新的传奇，而它的每一次进步，都在重新定义人类认知的边界。

2025-03-18 15:00:00 2148

原创《数字图像处理》第三章灰度变换与空间滤波学习笔记（3.1-3.2）反转、对数、幂律、分段线性等变换

空间域指图像平面本身，其处理直接作用于像素矩阵（区别于频率域的变换处理）。

2025-03-17 09:08:34 1182

原创 YOLO简史：从YOLOv1到YOLOv12的技术革新与演进

YOLO（You Only Look Once）系列算法自2015年诞生以来，凭借其“单次推理”的高效特性，彻底改变了目标检测领域。从初代YOLO到最新的YOLOv12，每一次迭代都凝聚了研究者的智慧与工业界的实践需求。本文梳理各版本的特性、技术突破、应用领域等，展现YOLO的进化历程。

2025-03-16 20:00:00 1612

原创《数字图像处理》第二章 2.6 数学工具学习笔记

介绍了数字图像处理中常用的数学工具，内容涵盖线性与非线性操作、算术运算、集合与逻辑操作、空间变换等多个维度，是理解图像处理算法的关键理论支撑。

2025-03-16 10:00:00 303

原创 NPU、边缘计算与算力都是什么啊？

这场革命不仅关乎技术迭代，更预示着文明形态的升维——当算力如水般渗透每个角落，智能终将成为人类认知世界的第六感。

2025-03-15 15:00:00 1491

原创二十九点七秒的心跳：项目经理的生日夜

清晨五点半，闹钟尚未响起，小元已在狭小的出租屋内醒来。二十八岁的年纪，本该是贪睡的时光，她却辗转反侧，难以入眠。习惯性地打开英语播客，这是多年专业课程养成的老习惯。她盘算着为自己准备一顿早餐，打开冰箱，却只见到几瓶水和几颗干瘪的橙子，只得作罢。匆匆洗漱完毕，她抓起电脑，赶往公司修改方案。路上，她试图闭目养神，但脑海中不断浮现客户的责骂、领导的PUA，以及研发同事的鄙夷目光。她陷入了无尽的自我怀疑与苛责之中。抵达公司楼下时，还未开始工作，她已感到精疲力竭。买杯咖啡，继续在CBD里扮演精英角色吧！

2025-03-15 10:00:00 415

原创 Android 相机开发入门指南：CameraX 与 Camera2 的终极对比与实践

在移动应用开发中，相机功能已成为社交、电商、工具类应用的标配能力。但 Android 相机开发因其碎片化设备和复杂的硬件交互，一直是开发者面临的高难度领域。Google 先后推出 Camera2（API 21+）和 CameraX（Jetpack 组件）两套解决方案，本文将深度解析两者的差异与最佳实践。另外，对2025年依然奋战在Android开发前线的战友们问个好，祝我们这些移动开发者越来越棒！

2025-03-14 15:00:00 1019

原创《数字图像处理》第二章 2.5 像素间基本关系学习笔记

4邻域(N4)：像素p(x,y)的上下左右4个像素# 提取4邻域示例[2, 7, 9],print(get_4_neighbors(matrix, 1, 1)) # 输出[8,1,2,9]D邻域(ND)：四个对角像素8邻域(N8)：N4 + ND。

2025-03-13 15:00:00 1740

原创重新认识OpenCV：C++视角下的历史演进、功能特性以及OpenCV 4.11新特性

多年来，我深入探索并见证了OpenCV的成长，心中始终充满钦佩与敬意。尽管商业机器视觉算法在某些领域表现出色，但OpenCV绝非逊色。每当有人以轻蔑的口吻谈论它时，我都忍不住想为其正名——它不仅是开源社区的瑰宝，更是无数开发者实现梦想的基石。无论从功能的丰富性、性能的优化，还是社区的活跃度来看，OpenCV都值得被尊重与推崇。

2025-03-12 15:00:00 1173

AI easyOCR的中文、英文和检测模型

在使用easyOCR时，三个重要的模型有时不容易下载，这里直接打包发出来，供有需要的小伙伴下载： craft_mlt_25k.pth english_g2.pth zh_sim_g2.pth 将它们放在C:\Users\YOURUSERNAME\.EasyOCR\model

2025-03-29

Tesseract OCR 中文识别库

Tesseract OCR中文识别库，下载后将其解压，放到Tesseract OCR安装路径中的tessdata文件夹即可

2025-03-29

Android 相机开发入门指南：CameraX 与 Camera2 的终极对比与实践源码

在移动应用开发中，相机功能已成为社交、电商、工具类应用的标配能力。但 Android 相机开发因其碎片化设备和复杂的硬件交互，一直是开发者面临的高难度领域。Google 先后推出 Camera2（API 21+）和 CameraX（Jetpack 组件）两套解决方案，本项目深度解析两者的差异与最佳实践。适合安卓摄像头开发新手入门。

2025-03-13