- 博客(20)
- 资源 (2)
- 收藏
- 关注
原创 [面试经验] 深度学习-7- MRM loss与ITM loss
特性MRM LossITM Loss粒度局部(区域级别)全局(整幅图像与整句文本)目标学习细粒度跨模态对齐学习整体图文匹配关系类比NLP 的 MLM(预测缺失词)NLP 的 Next Sentence Prediction(句子对是否相关)应用提升模型对细节的理解和对齐提升模型在检索、匹配上的判别力MRM loss更像是“补空缺、学细节”。ITM loss更像是“对对错、学整体关系”。MRM Loss(细粒度的区域级别补全/预测)ITM Loss(整体的图文二分类匹配)
2025-09-03 16:27:27
682
原创 [面试经验] 自然语言处理-5- Mamba,FM Index
基于 S4 系列 (Structured State Space) 演化而来。:在 NLP、语音、时间序列建模上性能优于 Transformer 与普通 SSM。由 Ferragina 和 Manzini 在 2000 年提出。,支持超长序列(数百万 token)训练与推理。(m 为模式长度),与文本长度 n 无关。:对输入序列进行动态加权,避免冗余计算。Mamba 是 2023 年末提出的。构建,存储空间接近文本的压缩极限。,实现高效的长序列建模。FM-index 是。
2025-09-02 23:27:02
382
原创 [面试经验] 自然语言处理-4-linear attn, RetentiveNet
特性动机近似 Self-Attention(降 O(n²) → O(n))重新设计序列建模机制(Retention)训练复杂度O(n d²),可并行O(n d²),可并行推理复杂度O(n d²),需全序列核计算O(1) per token(递归式更新)内存占用O(n d),随序列线性增长O(1),常数内存稳定性依赖核函数近似,数值稳定性欠佳指数衰减核,天然稳定代表模型RetNet长序列表现可以扩展,但数值精度下降更稳定,可处理百万级 token。
2025-09-02 23:25:30
967
原创 [面试经验] 自然语言处理-2- T5, CLIP, Qwen LLM
CLIP和T5的文本编码器参数规模差异明显:CLIP文本编码器(约63M-123M)远小于T5(220M-11B)。在生成模式上,T5采用Encoder-Decoder架构,生成时依赖源文本编码表示;而Qwen等LLM采用Decoder-only架构,仅依赖历史token自回归生成。T5适用于翻译、摘要等任务驱动型生成,Qwen更擅长开放式文本生成。两种模型在架构、生成模式和上下文依赖上存在本质区别:T5是条件序列生成,Qwen是纯语言模型化生成。
2025-08-31 00:29:03
717
原创 [面试经验] 自然语言处理-1 -Beam&Greedy Search
定义:一种启发式搜索,用于序列解码。过程初始时 beam 里只有一个空序列。每一步扩展 beam 里的所有候选序列,每个候选会产生 vocab 大小的新分支。在所有分支中只保留 top-k 个累计概率最高的序列,作为新的 beam。重复直到生成结束符[EOS]或达到最大长度。优点:比贪心更全局,比穷举高效。复杂度:O(k·V·L),其中 V 是词表大小,L 是生成长度。👉Beam Search = 每一步扩展并截断,只保留最优的 k 条路径。在里,生成的不是自然语言,而是语义 docid。
2025-08-31 00:16:35
834
原创 [论文阅读] 自然语言处理-3- Prefix Aware Weight Adapt
背景:在 NCI 模型里,文档用生成 docid,例如:docid A =315253docid B =111253这两个 docid 最后的 “53”,但它们语义不同:在3152前缀下的 “53”,代表;在1112前缀下的 “53”,代表。
2025-08-31 00:12:26
366
原创 [面试经验] 深度学习-6- SelfAttn与PosEncoding
大模型面试官:讲讲你对position encoding的理解吧,主要是用在self-attn还是cross-attn。
2025-08-11 10:16:04
708
原创 [面试经验] 深度学习-5-LoRA与LLM的低秩微调
当r(秩)比较小的时候就可以大量的节约显存量。主要考虑三点,1、权重;Ans:在反向传播与梯度更新过程中,, 因此权重加梯度加上动量的计算量是。代表scaling factor。在前向推理计算的时候,可以用。(二)使用LoRA的显存开销。(一)原公式的显存开销。综上,显存的节省比例是。
2025-08-05 20:32:58
157
原创 [面试经验] 深度学习-4-LLM训练中的PPO
(RL):马尔可夫决策过程(MDP)、Policy Gradient、REINFORCE、PPO(Proximal Policy Optimization)四、GRPO:泛化版的基于优势函数的偏好学习(由DeepSeek公司带火)二、PPO + RM:奖励建模,经典 RLHF 框架。(交叉熵损失、softmax、多类别分类)三、DPO:偏好直接优化。
2025-08-05 20:07:58
124
原创 [面试经验] 深度学习-3-手撕KV Cache
大模型推理阶段包含两个,预填充和解码(1)预填充Prefill:在attention计算过程中加载KV Cache(2)解码Decode:根据历史tokens解码当前token举个栗子:输入Prompt:['The', 'cat', 'sat'] → x₁ x₂ x₃我们对每个token计算:$$Q_i=x_iW_Q, \quad K_i=x_iW_K, \quad V_i=x_iW_V, \quad i=1,2,3$$
2025-07-17 11:53:51
324
原创 [面试经验] 深度学习-2-手撕Transformer
原因描述1. 数值稳定性防止 dot-product 太大导致 softmax 饱和、梯度消失2. 更好的训练性控制 softmax 的尖锐程度,提升模型训练效果3. 数学合理性点积的方差随维度增长,缩放能标准化它如你还想了解 “加性注意力(additive attention)” 就不需要缩放,为什么 dot-product 注意力才需要缩放,我也可以继续帮你展开。步骤内容1. 映射 Q、K、V使用三个线性层将输入映射为查询、键、值向量2. 拆分多头。
2025-07-15 15:33:00
660
原创 [面试经验] 多模态-1-预训练模型对齐
举个例子,llava的第一阶段训练的目的是为了将图片信息映射到文本语义空间,让LLM能够理解图像内容。最近做项目遇到了一个问题,我有clip和resnet两个不同的预训练模型,那么他们各自的表征在维度上都是不同的,那么我如果想要将两者对齐的话,应该怎么做呢?但是多模态领域的人喜欢做多模态对齐,比如通过预训练阶段将文本、视频、音频模态对齐,来看看他们的经验!多模态大模型(MLLM)预先训练的目的是对齐不同模态,并学习多模态世界知识。MLLM的训练范式大致可以划分为预训练阶段、指令微调阶段和对齐阶段。
2025-07-13 00:03:12
114
原创 [面试经验] 深度学习-1-pytorch的conv2d函数
dilation, #不知掉-膨胀系数/空洞卷积:1表示普通卷积2表示在卷积核每个元素之间差一个空洞。在这段函数中,输入为(N, C_in, H, W), 输出为(N, C_out, H_out, W_out)kernel_size, #卷积核大小,比如3表示3*3卷积核,(3,5)表示高为3,宽为5的卷积核。stride, #卷积核每次滑动的步长,卷积核进行完卷积之后向右滑动的距离。其中N为batch size,C为输入通道数, H、W分别为图像的高、宽。
2025-07-11 15:21:10
335
原创 Python相对路径导入错误怎么办?
平时工作用python想导入自己写的的函数、文件、package的时候,可能经常会遇到一个错误,就是明明我的文件就在那里,可为啥报错提示找不到呢?要解决这个问题,要将clip目录变成一个包,添加__init__.py文件。原因在于Python的包导入机制。这样就可以正常运行啦!
2025-02-18 19:28:30
347
原创 <memory>与“memory“
包含的是用户自定义头文件或者项目内的头文件。标准库头文件的方式,但它们之间有一些区别。包含的是标准库头文件,而使用双引号。总的来说,使用尖括号。
2024-05-17 11:09:47
371
原创 ORB-slam3 BA优化(Bundle Adjustment)学习笔记一
在ORB-SLAM3中,捆绑调整通常是由局部地图更新模块(Local Mapping)和闭环检测模块(Loop Closing)触发和执行的。你可以在这个文件中找到优化器的初始化、构建优化问题、添加边(约束)、设置优化参数等功能的实现。:这两个文件中定义了关键帧和地图点类,通常在捆绑调整中,这些类的状态(例如相机位姿、地图点位置等)会被作为优化变量。:这个文件定义了地图类,通常捆绑调整涉及到的地图结构和约束信息都会在这个类中进行管理。:优化器类的头文件,定义了优化器类的接口和成员函数。
2024-05-17 10:19:02
674
原创 ORB-slam3 BA优化(Bundle Adjustment)学习笔记二
执行捆绑调整(Bundle Adjustment),优化关键帧(KeyFrame)和地图点(MapPoint)的位姿和位置,以最小化重投影误差,从而提高系统的精度和一致性。: 执行惯性SLAM中的完全捆绑调整,优化相机位姿、地图点位置以及惯性传感器的偏置等参数,用于提高惯性SLAM系统的精度。: 执行惯性优化,优化惯性传感器的参数和地图的一致性,用于提高惯性SLAM系统的精度和稳定性。: 在惯性SLAM系统中执行地图合并时,对地图进行惯性捆绑调整,优化地图的一致性和精度。
2024-05-17 10:18:12
797
原创 docker catkin_make 限制编译线程数量
解决办法:在命令行设置catkin_make的编译环境变量ROS_PARALLEL_JOBS=3。这样比较鲁棒,看效果如下,2/3 jobs, 非常nice的编译~可以开心的catkin_make了。
2024-05-10 12:20:45
570
原创 Docker运行ORB-slam3踩坑实录
其中XXXX代表了容器docker的编号,用docker ps -a打印出来所有docker镜像,查看你需要的那一个docker镜像的编号(CONTAINER ID)注意我下面这句命令中用的是MH01.bag,各位看官在自己调试的时候需要改成自己的bag名称,并且注意需要在bag文件所在的目录下打开终端输入。
2024-05-06 16:28:32
798
1
MFC课程设计——南京景区综合票务管理系统.zip
2021-08-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅