- 博客(27)
- 收藏
- 关注
原创 CUDA编程面试高频30题
CUDA(Compute Unified Device Architecture)是由NVIDIA开发的一种并行计算平台和应用程序接口模型。它允许开发者利用NVIDIA GPU进行通用计算任务,而不仅仅是图形渲染。CUDA提供了一个编程模型,使得开发者可以通过C、C++或Fortran等语言编写程序,并在支持CUDA的GPU上运行这些程序以获得显著的性能提升。Warp是GPU执行的基本单位,通常包含32个线程。Warp内的线程以单指令多线程(SIMT)方式执行相同的指令流。
2025-03-21 10:11:57
903
原创 CUDA编程基础
本文简要介绍了CUDA编程的核心概念与实践,包括内存层次结构、线程模型、核函数设计等关键知识点,并通过实例讲解了如何优化程序性能,如利用共享内存减少全局内存访问、合理配置线程块大小以充分利用GPU资源。此外,还提及了使用CUDA流实现异步执行及最新架构特性,为读者提供了一个全面了解CUDA编程的概览。
2025-03-20 16:40:36
951
原创 机器学习面试重点第二部分(动画版)
Fisher判别分析是一种监督降维方法,其核心思想是通过最大化类间距离与类内距离的比值,找到最优的投影方向,使得不同类别的数据在低维空间中尽可能分开。LDA是一种监督降维方法,其核心思想是通过最大化类间距离和最小化类内距离,找到最优的投影方向,使得不同类别的数据在低维空间中尽可能分开。PCA是一种无监督降维方法,其核心思想是通过正交变换将原始数据投影到低维空间,使得投影后的数据方差最大,从而保留尽可能多的信息。SVD是一种矩阵分解方法,其核心思想是将一个矩阵分解为三个矩阵的乘积,从而提取矩阵的主要特征。
2025-03-19 15:10:17
1023
原创 机器学习面试重点第一部分(动画版)
自己整理了些面试常见的问题,然后尽可能使用直观的方式帮助大家记忆,后面会陆续介绍各个关键的基础知识,帮助大家校招和社招。目录一、KNN1. 原理问题1:KNN算法的核心思想是什么?问题2:KNN算法中距离度量有哪些常见方法?问题3:KNN算法中K值的选择对结果有什么影响?2. 实现问题1:KNN算法的实现步骤是什么?问题2:KNN算法的时间复杂度是多少?3. 优化与加速算法问题1:KNN算法的主要缺点是什么?如何优化?4. 代码实现5. 综合问题二、SVM1. 什么是支持向量机(SVM)?2. SVM如
2025-03-15 12:10:45
1241
原创 三维重建基础——单视测量(第一部分)
齐次坐标通过增加一个维度来表示点。二维点(x,y)的齐次坐标为(x,y,1)。无穷远点的齐次坐标为(x,y,0)。关键点如果w!=0,则(x,y,w)表示有限点,等价于欧氏空间中的点(x/w,y/w)。如果w=0,则(x,y,0)表示无穷远点。无穷远点(x,y,0)的定义来源于投影几何的极限概念。当w→0时,点(x,y,w)趋向于无穷远。数学推导考虑点(x,y,w),当w→0时,x/w和y/w趋向于无穷大,因此(x,y,0)表示一个无穷远点。齐次坐标的作用。
2025-03-11 17:14:52
1470
原创 深入解析相机标定:从数学原理到工程实践
参数物理意义未标定的后果标定后的精度提升f_xX方向等效焦距深度计算误差(比例性偏差)深度误差<0.1%c_x图像中心X坐标物体水平定位偏移中心定位误差<1像素k_1二阶径向畸变系数图像边缘弯曲(桶形/枕形)直线弯曲度<0.1像素p_1切向畸变系数图像倾斜变形角度偏差<0.1度采集图像:从不同角度拍摄标定板(建议15-20张)角点检测:提取标定板的角点坐标参数初始化:估计初始内参和畸变系数优化求解:最小化重投影误差,优化参数结果评估:计算标定误差,验证精度。
2025-03-08 11:59:23
991
原创 相机几何:从三维世界到二维图像的映射
本文将带领读者开启一场独特的三维视觉工程之旅。我们不再止步于教科书式的公式推导,而是聚焦于如何将抽象的数学原理转化为可落地的工程实践。通过解剖相机的光学特性、构建成像数学模型、解析坐标系转换链条,直至亲手实现参数标定代码,我们将层层剥开三维视觉系统的核心构造。在这场旅程中,您将理解为何简单的针孔模型能衍生出自动驾驶的感知算法,掌握透镜畸变参数如何影响AR眼镜的虚实配准精度,洞悉坐标系转换矩阵怎样支撑工业机器人的空间定位。我们特别设计了"理论-建模-代码"三位一体的讲解框架,让OpenCV中的标定函数不再
2025-03-06 22:01:15
993
原创 大模型基石——Transformer介绍
例如,在句子“The cat sat on the mat”中,当你看到单词“sat”时,你的注意力可能会集中在“cat”和“mat”上,因为它们与“sat”有直接的语义关系。注意力机制的核心思想是:模型在处理序列中的某个元素时,可以“关注”序列中的其他元素,而不需要严格按照顺序处理。注意力机制的作用就是让模型在处理某个单词时,能够“关注”句子中的其他单词,从而捕捉上下文信息。在Transformer中,注意力机制的作用是让模型在处理某个单词时,能够“关注”句子中的其他单词,从而捕捉上下文信息。
2025-03-05 20:46:59
1080
原创 由浅入深系列——Distinctive Image Featuresfrom Scale-Invariant Keypoints(SIFT)
一文吃透SIFT
2025-02-28 16:12:48
713
原创 由浅入深系列——傅里叶变换
频率(Frequency)是单位时间内周期性事件重复的次数,单位为赫兹(Hz)。心跳:1 Hz ≈ 60次/分钟,频域中对应一个尖峰(图2)。钢琴中央C:261.63 Hz,代表每秒振动次数,与琴弦长度/张力相关。哲学延伸:频率是物质的“振动指纹”。从DNA双螺旋到银河系旋转,宇宙本质是不同频率振动的叠加。
2025-02-26 15:20:50
1016
1
原创 由浅入深系列——卡尔曼滤波
卡尔曼滤波自1960年诞生以来,已从一篇控制论论文演变为跨越学科的工具,但其核心思想价值远超越数学公式本身。它提供了一种在噪声与混沌中逼近本质的方法论,既是对技术局限的妥协,也是对人性认知的隐喻。
2025-02-26 14:35:07
1135
原创 记录在 Windows 上安装 OpenSSL供VS使用:详细步骤与常见问题解决(包括 X64 版本)
通过遵循以上步骤,我成功地在 Windows 上安装了 OpenSSL。无论是32 位还是64 位的版本,只需要在配置阶段使用不同的命令(VC-WIN32或VC-WIN64A)即可。主要的挑战包括权限问题和确保所有构建工具正确配置。通过使用Visual Studio 开发者命令提示符并确保以管理员身份运行命令,我能够顺利解决这些问题,并完成 OpenSSL 的安装。
2025-02-20 11:22:33
685
原创 虚拟机双网卡搭建
项目描述:我们将探讨如何通过虚拟机中集群化部署的 centos系统来控制海康摄像机,并利用 OpenCV 实现基础的视频流处理。整个过程的实现,主要参考了海康的 API 文档,目标是通过虚拟机有效控制监控设备并进行视频数据的处理。博文描述:博文还将介绍如何在虚拟机中配置双网络环境,使得系统同时能够访问内网和公网。这一技术方案对于其他类似项目也具有很高的借鉴意义,特别是在需要同时进行公网和内网资源访问的场景下。由于考虑K8S的集群化部署,在实验过程中,最大的挑战之一便是虚拟机的网络配置。
2025-02-08 10:28:01
481
原创 Ubuntu Docker 安装与远程连接笔记
在VSCode中配置Remote-SSH插件,填写相应的服务器IP、端口等信息,即可实现远程开发环境。在Ubuntu系统中,可能已经预装了低版本的Docker。首先需要卸载这些旧版本以避免冲突。,尽管实际上你的zlib版本高于1.2.3。完成上述步骤后,再次尝试拉取镜像应能正常工作。工具存在bug导致的。当尝试拉取镜像时可能会遇到错误提示。注:更改后需要重新登录才能生效。下载并编译最新版本的。
2025-02-05 13:47:17
985
原创 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning 论文重点部分翻译和要点解读
推理任务:(1) DeepSeek-R1在AIME 2024上实现了79.8%的Pass@1得分,略高于OpenAI-o1-1217。在MATH-500上,它取得了令人印象深刻的97.3%得分,与OpenAI-o1-1217持平,并显著超越其他模型。(2) 在与编码相关的任务中,DeepSeek-R1展示了专家级别的能力,在Codeforces竞赛中获得了2,029的Elo评分,超过了96.3%的人类参赛者。
2025-02-03 12:03:00
833
原创 零基础本地部署DEEPSEEK大模型教程(LM Studio版)
上面两部主要是看CUDA是否成功加载,不然是CPU跑可能就很慢,一般来说都没有问题,有问题可能需要安装CUDA的库。在框中输入刚才搜的模型,因为你搜的模型会告诉你这个模型是否符合你的电脑配置,注:DEEPSEEK R1的GGUF量化版(如Q4_K_M)约需8GB显存。国内网盘镜像(含DEEPSEEK R1各量化版本): 暂未上传。:消费级显卡即可运行(实测NVIDIA 4060s流畅运行)(使用VS Code/VSCode的批量替换功能更高效):模型加载后可直接对话。中保存常用提示词模板。
2025-02-02 19:17:04
10449
1
原创 Windows 下 unet道面分割 tensorRT C++部署实战
先简单公布代码和关键步骤,根据流量看后续是否有必要详细给出所有步骤,希望大家支持。
2025-02-02 13:22:21
549
原创 pytorch常见问题和技巧——标签格式错误
在模型训练过程中,标签格式错误是导致模型性能下降或训练失败的常见原因之一。以下总结了常见的标签错误情况及其可能的错误结果,并提供了相应的解决方案。
2025-02-02 13:07:43
763
原创 pytorch常见问题和技巧——数值不稳定,loss为Nan等
总结一些模型在训练过程中常见的导致数值不稳定的原因,一般来说可以检测这些函数是否正确使用
2025-02-02 11:55:44
703
原创 使用 PyInstaller 打包 Python 应用
PyInstaller 虽然可以自动识别依赖项,但有时也会出现遗漏的情况,需要手动添加。将 Python 解释器、依赖项以及脚本打包成一个可执行文件 (Windows 下为。打包后的文件体积会比较大,因为它包含了 Python 解释器和所有依赖项。打包后的程序只能在相同操作系统和架构的机器上运行。,Linux/macOS 下为无后缀文件)。目录,直接运行生成的可执行文件即可。脚本,自动识别其依赖项。目录下生成打包后的文件。
2025-01-31 15:04:17
293
原创 Visual studio发布程序依赖缺失,通过依赖库检测工具进行问题解决办法
问题描述自己使用visual studio开发的应用程序或者接口,在另外一台电脑上无法运行,一般提示缺失缺失dll,有时程序直接崩溃或者无限等待,或者出现闪退的情况。原则VS发布的程序尽量使用release,不带debug信息能省很多麻烦缺失运行时,如MSRPC,等在https://learn.microsoft.com/en-us/cpp/windows/latest-supported-vc-redist?下载对应的运行时,然后安装。
2025-01-31 14:56:23
460
原创 Python 依赖本地化安装指南:以 PyTorch 为例
在 Python 项目开发中,依赖管理是一个重要环节。通常情况下,我们会使用pip从 PyPI (Python Package Index) 直接安装依赖包。无法直接访问外网下载依赖。需要确保依赖版本一致,避免线上环境与开发环境不一致导致的兼容性问题。重复下载耗时较长。我们需要将依赖包下载到本地,然后在目标机器上进行离线安装。本文介绍如何使用pip实现 Python 依赖的本地化安装,并以 PyTorch 为例进行演示。
2025-01-31 14:55:24
449
原创 cython加速实战
在windows中,确保安装了MSVC编译器,一般来说下载一个VS2022然后安装C++及相关WINDOWS SDK部分可以解决大部分问题。
2025-01-31 14:46:50
161
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人