- 博客(135)
- 收藏
- 关注
原创 Qwen3模型结构和模型训练
下图是一个zhihuer通过Qwen的代码文件画出来的模型架构图,也符合我阅读Qwen3代码的结果。处理初始prompt(首次前向传播)性能特征:计算量 = O(seq_len²),无法避免,但只执行一次。自回归逐个生成token(循环直到遇到EOS)
2025-12-12 11:22:18
846
原创 物联网 - MQTT、EMQX、Broker
IP 开通端口访问,只是给设备「进门的资格」(能连接 Broker);订阅和发布是「进门后的操作权限」,由 Broker 的 ACL、数据库权限等规则独立控制;「能订阅」和「能发布」没有必然关联,生产环境中更推荐「最小权限原则」:例如传感器仅允许发布数据主题,控制端仅允许订阅指令主题,避免权限滥用。
2025-11-14 13:40:23
1184
原创 rnn lstm transformer mamba
在不显著损失“捕捉长期依赖、缓解梯度问题”核心能力的前提下,通过结构简化实现“轻量、高效、稳健、易落地”。它不是LSTM的“替代品”,而是“优化版”——适合大多数常规序列任务(文本分类、短序列预测、实时推理、小数据集场景);只有在极长序列(如1000+时间步的长文本生成)或对记忆精度要求极高的场景(如复杂机器翻译),LSTM才略占优势,但GRU仍是工程实践中的“首选”,因为它能以更低的成本达到接近LSTM的效果。
2025-11-08 22:49:22
812
原创 显存和算力的关系
我们在模型的使用过程中,经常会发现一些模型显存够用但是算力跟不上,这时就会出现有关显存和算力之间的关系,尤其是有些模型会出现不吃显存但是很吃算力的情况,需要具体情况具体进行分析。
2025-09-30 15:18:24
602
原创 Paged attention和kv cache 以及PD分离、RoPE、YaRN
另外可以注意到旋转矩阵是二维矩阵,二维旋转矩阵只能作用在2 维平面上(cossin\cos,\sincossin结构),但 Transformer 里的向量通常是高维的(例如 1024 维)。RoPE 的做法是:把一个ddd-维向量,按照维度顺序两两分组为d22d个二维子向量,每个子向量独立旋转一个角度。这样就能在高维空间中实现旋转操作,而且只需要二维旋转矩阵的简单结构。
2025-09-17 16:31:44
840
原创 SD算法原理理解
Stable Diffusion 是一种 基于扩散过程的文本到图像生成模型(Text-to-Image Diffusion Model),其设计兼顾了高质量图像生成与高效推理能力。它在生成图像的质量、速度和开放性上取得突破。基于latent的扩散模型架构图镇楼。
2025-08-08 10:36:15
719
原创 Token的数值化,从文本到向量
这三个技术本质上都是为了弥补模型对 “文本结构信息” 的天然缺失:位置编码→补充 “顺序信息”;分段嵌入→补充 “片段边界信息”;Chat 格式对齐→补充 “对话角色与轮次信息”。它们共同作用,让模型能更准确地理解复杂文本的语义和结构,是大模型实现高质量输出的基础。
2025-08-06 11:32:37
1258
原创 Function Calling 和 mcp
场景推荐构建多工具协同的系统✅ 使用 MCP(基于 Function Calling)构建对话式 API 接入✅ 结合 Function Calling + MCP使用 OpenAI/Claude/RAG/插件/LLM 多模型接入系统✅ MCP 提供统一入口只做语言生成,无插件需求Function Calling 非必需,MCP 不需要。
2025-08-01 10:54:54
462
原创 前后端知识-post/get/curl
GET 请求的参数是通过 URL 传递的,而 URL 的长度是有限制的,通常为 2k,当然浏览器厂商不同、版本不同这个限制的大小值可能也不同,但相同的是它们都会对 URL 的大小进行限制;然后,按照用户设置的请求方法、请求头和请求体等信息,将请求数据发送到服务器。GET 和 POST 最本质的区别是“约定和规范”上的区别,在规范中,定义 GET 请求是用来获取资源的,也就是进行查询操作的,而 POST 请求是用来传输实体对象的,因此会使用 POST 来进行添加、修改和删除等操作。
2025-03-10 14:13:07
1136
原创 Float16 Bfloat16 w8a8数据类型以及E4M3的计算
W8A8 代表 权重(Weights)和激活值(Activations)均被量化为 8 位(INT8 或 UINT8),常用于深度学习推理,以减少模型的存储、计算需求,并提升硬件执行效率。W8(8-bit Weights):将神经网络的权重从 32 位浮点(FP32)转换为 8 位整数(INT8)。A8(8-bit Activations):将神经网络的激活值从 32 位浮点(FP32)转换为 8 位整数(INT8)。
2025-02-20 14:16:08
1875
原创 centOS定时任务-cron服务
最近在训练模型的过程中,经常会因为内存爆炸而停止模型训练过程,而且因为内存占满停止的训练进程甚至都没有任何的报错提示。1、需要减少num_worker的数量,降低需要占用内存的数据数量2、可以通过free -h监控内存的占用情况3、可以通过linux的清除缓存命令来手动的对缓存进行清除4、在验证1-3有效的前提下通过linux下定时任务来定时的对缓存进行清理动作。
2024-12-17 16:40:03
782
原创 MambaIR 环境安装踩坑与解决办法
mambair 作为目前比较新颖的mamba创新结构,是非常值得作为研究探讨的,本文记录mamba在本地部署过程中踩到的坑,帮助大家早日部署好环境进入到具体的研究过程中。
2024-12-09 10:47:27
1560
1
原创 FLOPS和TOPS的区别 以及 算力的计算方法
AI芯片通过设计特殊的计算单元,实现了超高的操作数量。例如: 以GTX680为例, 单核一个时钟周期单精度计算次数为两次,处理核个数 为1536, 主频为1006MHZ,那他的计算能力的峰值P 为:P = 2 × 1536 × 1006MHZ = 3.09TFLOPS,1T为1兆,也就是说,GTX680每秒可以进行超过3兆次的单精度运算。AI芯片算力又是算力中专门的一个领域,低标准下的高算力是比不上高标准下的低算力的,比如INT4标准下的100TOPS算力是要远弱于INT8标准下的90TOPS的。
2024-11-18 16:10:19
10207
1
原创 VGA/HDMI/DP接口和USB、串口通信协议
串口是一种用于串行通信的接口,它允许设备通过单个数据线按位发送和接收数据。基本概念:串口,全称为串行端口或串行接口,是计算机与外部设备之间进行数据传输的一种方式。与传统的并行通信相比,串口通信只需使用一对传输线(一条用于发送数据,另一条用于接收数据),因此能够显著减少所需的硬件资源,并简化电路设计。技术标准:RS-232是最广为人知的串口通信标准之一,由美国电子工业联盟(EIA)在1970年代提出。它定义了数据终端设备(DTE)和数据通信设备(DCE)之间的物理连接和信号标准。
2024-09-27 23:37:41
2810
原创 AccessClient在MacOS14 (sonoma)闪退无法调用远程桌面
今天在Mac OS14.6系统使用跳板机登陆堡垒机机群的过程发现问题,按照教程一通操作猛如虎,最后在一个知乎评论区一行chmod解决问题。问题是一打开软件会有报错,其中命令中有建议在.ssh/config文件中添加一句话,如果遇到这个报错就在该文件中根据提示完成操作。跳板机则是前置机统一登录的一个机器,跳板机唯一具有访问堡垒机的权限,一般会有固定密码和动态密码来进行安全审核。目前各公司在保障内部机器集群安全的措施中,比较常见的是通过前置机、跳板机和堡垒机来完成风险的隔绝。缺少.ssh/config配置。
2024-09-26 16:42:33
2045
2
原创 组合导航、卫星定位与RTK、石英表计时
导航是现代生活必不可少的基础设施,大到俄乌冲突导弹互相暴揍,小到出门游玩,都离不开导航功能。我们常说导航,但是导航这一功能的核心是定位。沿着定位这条线我们开始本篇文章的内容。
2024-09-04 11:07:10
2451
原创 深度相机与红外光相机+摄像头RTSP协议
随着计算机视觉与人工智能技术的飞速发展,采用深度相机进行场景三维重建、目标检测、环境感知等应用越来越广泛,与传统的2D相机不同,深度相机可以通过拍摄空间来获得景深信息,从而获得目标的3D信息,构建3D模型,这也是与普通相机最大的差别。目前的深度相机根据其工作原理可以分为三种:TOF、RGB双目、结构光,在机器人、人机交互以及其他工业领域中等到了广泛应用。
2024-08-14 11:12:57
2695
原创 IP地址与子网掩码
对上面这段话的理解为,C类的话,前24位是网络号,所以用都是1去做与,最后8位用0去跟IP做与,这样得到的结果是如果两个IP前24位一样,那么与的结果也就一样,也就是在同一网段,即可以通讯。不同的是你们俩通过网关对应公网的IP,即不能重复。理论上每个公网IP(公网地址)下都可以在其内网(如学校、公司内部网络或者你宿舍宽带分配的内网ip)分配私网地址(如下图),即公网地址全球唯一不可重复,但是每个公网地址下的私网地址可以重复,因为这些私网地址,就是分配给内网使用的,一般公网上是访问不到这些内网地址的。
2024-04-01 18:53:40
2478
原创 Linux shell 命令中nohup 、&、重定向的使用
执行 nohup sh test.sh & 命令后,能进行输入操作,标准输出 的日志写入到 nohup.out 文件,即使关闭xshell,退出当前session后,脚本命令依然继续运行。logFile1 :即 1 >logFile1,1是标准信息输出,是默认的,可以省略,logFile1是 日志文件名字。上面提到的日志文件默认名称是 nohup.out ,如果修改日志文件的名称,则用到 重定向 ,符号是 > ,语法格式是。能进行输入操作(比如输入命令、换行、打空格等),即 可进行交互 输入和输出的操作,
2024-03-21 11:20:53
1558
1
原创 yolo网络整理-网络结构原理与anchor
YOLOv5 是Glenn Jocher等人操刀研发,Ultralytics公司的开源项目,。2020年6月发布以来,Ultralytics公司一直在对项目进行维护与更新,目前repo的star数目突破44k,YOLOv5的功能在迭代中越发强大与完善,目前支持多平台多框架,以及涵盖语义分割等功能,成为越来越强大的检测工具。
2023-12-18 17:04:29
1964
原创 英伟达GPU型号与架构介绍
随着人工智能应用的兴起和需求的增加,英伟达的数据中心业务有望持续高增长。显存: 显存即显卡内存,显存主要用于存放数据模型,决定了我们一次读入显卡进行运算的数据多少(batch size)和我们能够搭建的模型大小(网络层数、单元数),是对深度学习研究人员来说很重要的指标,简述来讲,显存越大越好。CUDA核心数量:CUDA是NVIDIA推出的统一计算架构,NVIDIA几乎每款GPU都有CUDA核心,CUDA核心是每一个GPU始终执行一次值乘法运算,一般来说,同等计算架构下,CUDA核心数越高,计算能力会递增。
2023-11-27 11:12:59
6330
原创 80端口、8080端口和443端口的区分
当您在Web浏览器中输入一个URL时,如果使用https协议(例如,https://www.zonghengcloud.com),浏览器会默认使用端口443与Web服务器建立安全连接,以确保数据在传输过程中受到加密保护。端口8080通常不是标准HTTP流量的目标端口,通常需要显式指定(例如,http://localhost:8080)。端口443用于安全的HTTPS通信,传输加密的Web内容,用于保护敏感数据的安全传输。端口80用于标准HTTP通信,传输非加密的Web内容。
2023-11-02 16:25:05
6622
原创 激光雷达点云基础-点云滤波算法与点云配准算法
直通滤波器原理:在点云的指定维度上设置一个阈值范围,将这个维度上的数据分为在阈值范围内与不在阈值范围内,从而选择过滤与否。能够快速过滤掉用户自定义区间范围内的点云。在实际应用中,由于激光扫描采集的距离较远,但是根据功能需求的不同可能只关心一定区域内的数据,比如低速物流车的运营场景,可能在X方向只关心前后60米,Y方向只关心左右20米的范围。此时就可以利用直通滤波器提取出感兴趣区域,可较快剔除部分点云,达到第一步粗处理的目的。条件滤波器。
2023-10-30 17:37:08
3632
原创 组合导航-IMU-GPS-RTK基本介绍
在实际应用中,需要利用 GPS、北斗等方式产生的信号进行初始化,结合惯导信号和卫星导航信号进行进行卡尔曼滤波处理,得出其最佳推算的定位信息。惯导比起卫星定位具有自身的技术优势,测量方法不依赖外界,短期精度高,能稳 定高频地输出信号。工作原理是通过感知物体在空间的角速度、线速度,进而获取物体的姿态、位置和速度等信息,实现对运动物体姿态和运动轨迹的测量,可以实现全天候全地点地工作。但惯导也有自身的缺陷,由于采用积分算法,定位误差随 载体运行不断累积。
2023-07-24 17:30:10
7339
1
原创 NLP入门:word2vec & self-attention & transformer & diffusion的技术演变
这一段时间大模型的相关进展如火如荼,吸引了很多人的目光;本文从nlp领域入门的角度来总结相关的技术路线演变路线。
2023-06-28 13:55:44
2616
原创 准确率、精确率、召回率、F1score和混淆矩阵
F-Score:权衡精确率(Precision)和召回率(Recall),一般来说准确率和召回率呈负相关,一个高,一个就低,如果两个都低,一定是有问题的。一般来说,精确度和召回率之间是矛盾的,这里引入F1-Score作为综合指标,就是为了平衡准确率和召回率的影响,较为全面地评价一个分类器。F1是精确率和召回率的调和平均。精确率代表对正样本结果中的预测准确程度,准确率则代表整体的预测准确程度,包括正样本和负样本。也叫查准率,即正确预测为正的占全部预测为正的比例(不准错,宁愿漏检,也不能让现有的预测有错)。
2023-04-13 11:17:13
2557
原创 Cannot load cudnn shared library. Could not load library libcudnn_ops_infer.so.8.
是我们在配置环境时经常遇到的错误,我们需要进行链接配置解决具体问题。
2023-03-22 09:15:36
1423
原创 Linux查看CUDA版本以及nvcc: command not found
在日常使用中,在配置镜像以及使用开源网站时经常需要查询CUDA版本,版本也确实十分的重要。一般的我们有三种常见的查询方式。
2023-03-20 15:33:49
8978
3
原创 模型压缩- 剪枝/量化/蒸馏/AutoML
原因深度学习训练得到的网络复杂度高,参数冗余。解决方式(1)线性或非线性量化(2)结构或非结构剪枝(3)网络结构搜索(4)权重矩阵的低秩分解(5)蒸馏目的优化精度、性能、存储……使得可以在一些场景和设备上进行相应模型的部署。...
2022-09-01 10:58:00
550
原创 手机镜头,噪声建模,ISP,ISO与analog gain
最近在做夜景去噪声的low level工作,相关工作可以说是非常的难以及boring。因为这种low level你必须往上层,往底层走,甚至说需要了解ISP相关的知识;因此这段时间对于相关知识进行了大量的学习与了解。......
2022-08-25 12:16:45
4377
1
原创 BM3D、域变换与Non-Local
近期在了解Non-local相关知识,之前对Non-local学习的不够深入,这一次算是了解的更为全面一些,在此予以总结和记录。BM3D作为一款非常经典的图像去噪算法,可以从其中学习到非常多的可以应用在深度学习领域的idea。借助于文章传统图像降噪算法之BM3D原理详解 我们一起学习一下BM3D算法的内核与精神。BM3D 主要用于去除图像中的加性高斯白噪声(Additive White Gaussian Noise, AWGN)。这里主要涉及三个概念:加性:即噪声其对原始信号的影响可表示为线性叠加。对于
2022-07-08 14:14:24
1231
原创 计算机基础知识
本部分内容主要是在下载软件时候遇到,之前未做详细了解。i386:是指兼容Intel 80386处理器x86或80x86是英代爾Intel首先开发制造的一种微处理器体系结构的泛称。該系列較早期的處理器名稱是以數字來表示,並以“86”作為結尾,包括Intel 8086、80186、80286、80386以及80486,因此其架構被稱為“x86”。由於數字並不能作為註冊商標,因此Intel及其競爭者均在新一代處理器使用可註冊的名稱,如Pentium。現時Intel把x86-32稱為IA-32,全名為Intel
2022-07-07 19:31:00
366
原创 深度学习正则化(L1 norm/L2 norm)以及dropout理解
正则化知识其实是深度学习领域较为基础的知识点,初入此门的时候受限于正则化三个字的逼格,一直不求甚解;后期虽然了解但也仅限于L1和L2范数而已。恰巧上周在谢毅博士的课上旁听,讲到多拟合相关知识,后续和捷文讨论transformer内部的dropout为何还广泛使用,由此总结下正则化相关内容。1、何为正则化首先看百度百科的一部分解释:正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方
2022-05-19 18:11:55
2919
2
原创 最小二乘、梯度下降与反向传播
在阅读高翔博士的slam十四讲的过程中,有关于求解观测与估计值的最大似然问题引起了我比较好的好奇,并且顺着这个问题了解了自己之前一直困惑的梯度下降问题以及高斯牛顿方法,在此进行总结。1、前序1.1 贝叶斯公式首先问题是由作者根据贝叶斯法则将后验分布经过变换转为最大似然问题来解决的,直接求后验分布是困难的,但是求一个状态最优估计,是的在该状态下后验概率最大化,则是可行的。p(x,y | z,u) = p(z,u | x,y) * p(x,y) / p(z,u)p(z,u | x,y) :最大似然
2022-05-07 18:24:10
1117
原创 Cython与pyx pyd格式-python调用c++
1、python与C++为何要结合当从事技术的人员提到 Python 的时候,经常会说到下面两个优点:写起来方便容易调用 C/C++ 的库然而实际上,第一点是以巨慢的执行速度为代价的,而第二点也需要库本身按照 Python 的规范使用 Python API、导出相应的符号。因此出现了CythonCython 可以让我们方便地:用 Python 的语法混合编写 Python 和 C/C++ 代码,提升 Python 速度调用 C/C++ 代码C语言是编译性语言,而Python则是解释性语言
2022-04-01 21:30:48
2690
6
原创 基于区域和基于边缘的图像分割
1、图像分割的概念图像分割是将图像分割成不同的区域或类别,并使这些区域或类别对应于不同的目标或者局部目标。每个区域包含具有相似属性的像素,并且图像中的每个像素都分配给这些类别之一。一个好的图像分割通常指同一类别的像素具有相似的强度值并形成一个连通区域,而相邻的不同类别的像素具有不同的值。分割技术可以是非上下文的(不考虑图像中特征和组像素之间的空间关系,只考虑一些全局属性,例如颜色或灰度值),也可以是上下文的(另外利用空间关系,例如对具有相似灰度的空间封闭像素分组)。从分割的技术来说,图像分割方法主要分为
2022-03-23 18:49:55
11859
原创 python 函数传递
最近在处理 模型计算量 模型参数量 问题时发现python内部可以将函数作为参数传递,坦白来说这是一种比较新颖的计算方法。ptflops 作为一种常用的模型参数量计算手段,在深度学习模型中使用范围广泛;之前在使用过程中发现模型多输入的情况下函数会报错。后面我这边是直接改动了源代码将input_res给更改为支持list输入的函数类型。实际上文章支持多输入,只是需要借用input_constructo,input_constructor可以作为变量或者函数整个的作为参数传递进入来对input_res解析,
2021-12-27 21:33:49
2205
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅