自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(247)
  • 收藏
  • 关注

原创 两种常见的多模态对齐方式

方法优点缺点适用场景灵活、可控、对长序列稳定实现复杂,计算量增加自回归生成、多模态问答、长文本生成拼接 + Self-Attention简单、训练统一序列长、模态干扰大、扩展性差小模型、多模态短序列、快速原型。

2025-09-27 16:54:36 401

原创 一个句子在送入transformer之前经历了什么

在进入(无论是 Transformer 的文本生成模型、机器翻译模型还是其他序列到序列模型)之前,输入的必须先被:是否保留大小写(如 GPT 系列保留大小写,BERT 不区分大小写)。:去除多余空格、统一标点符号(如全角/半角)。:把不同编码的同一字符(如“é” vs “e+´”)统一。例如:这是核心步骤,将句子拆分为模型词表(vocabulary)中存在的“token”单元。不同模型的分词策略不同,但目标都是把文本映射到一系列离散的。

2025-09-19 10:51:48 1046

原创 numpy生成矩阵并转化为torch张量

【代码】numpy生成矩阵并转化为torch张量。

2025-09-18 17:01:44 295

原创 MHA深度解析

对第 i 个头输出融合矩阵:(可选偏置项略)

2025-09-18 16:37:08 284

原创 通俗易懂理解RoPE旋转位置编码

👉RoPE 的旋转角度 = 位置编号 × 维度频率模型不需要“学”这个角度,它是固定公式,确保不同位置的 token 在多维平面上按照规律旋转,让点积注意力自动带上相对位置信息。

2025-09-13 11:24:13 1280

原创 大模型的head都有哪些

Head 要轻量:大模型已学到丰富表示,Head 只做任务映射即可输出空间匹配任务:分类 → softmax,回归 → 实数向量,动作生成 → 连续动作训练方式:大模型可冻结或微调,Head 必须可训练共享与可扩展:不同任务可共享底层大模型,只换 Head 即可。

2025-09-11 10:48:51 364

原创 Prismatic VLM的流程简化

在里,和,是由同一个来完成的。

2025-09-11 10:17:59 360

原创 高频二进制位运算常用模板

常用于树状数组 (Fenwick Tree) 等算法。

2025-09-10 16:24:22 425

原创 RedisStack: RedisJson + RedisSearch的使用

Redis Stack = Redis + 多个模块(RedisSearch、RedisJSON、RedisGraph 等)。其中。

2025-09-10 09:36:54 530

原创 常见网络状态码

切换协议(如 WebSocket 升级)。:网关错误(常见于反向代理 Nginx)。:服务不可用(服务器过载或维护中)。:永久重定向,资源已转移到新地址。:请求成功但无返回内容(比如。:网关超时(服务器没响应)。:资源未修改,可使用缓存。:请求已接受但尚未处理。:禁止访问(权限不足)。:客户端应继续其请求。:已创建资源(常见于。:请求无效,参数错误。:未认证(需要登录)。:请求方法不允许(如。:请求过多,被限流。:你(客户端)的问题。:我(服务器)的问题。

2025-09-09 09:51:03 393

原创 TCP的三次握手与四次挥手

关闭需要双方各自确认:客户端关闭自己的发送 → 服务器确认 → 服务器关闭自己的发送 → 客户端确认。四次挥手:客户端 FIN → 服务器 ACK → 服务器 FIN → 客户端 ACK,双方断开。三次握手:客户端 SYN → 服务器 SYN+ACK → 客户端 ACK,建立连接。(收到你的关闭请求,但我可能还有数据要传)。客户端 → 服务器:发送。服务器 → 客户端:发送。客户端 → 服务器:发送。客户端 → 服务器:发送。服务器 → 客户端:发送。服务器 → 客户端:发送。客户端 → 服务器:发送。

2025-09-05 16:11:36 231

原创 vector相关用法,对应java和Python

【代码】vector相关用法,对应java和Python。

2025-09-03 19:56:39 1136

原创 LeetCode hot100 加部分常考题

的输入如下(你设计的程序。

2025-09-03 19:34:18 738

原创 PPO 算法详细流程(基于核心直观想法展开),通俗易懂

​:Clipping机制有效防止了训练崩溃,非常适合在仿真中训练机器人策略,因为仿真的每次交互成本虽低,但稳定的训练能更快收敛。它通过限制新旧策略之间的差异来实现这一点,即确保新策略(更新后的策略)不会偏离旧策略(更新前的策略)太远。​:相比一些更简单的策略梯度方法(如REINFORCE),PPO能更有效地利用收集到的数据。​,其核心思想是:在更新策略时,避免一次性进行过于激进的参数更新,从而保证训练过程的​。​,同时更新策略网络(Actor)和价值网络(Critic)的参数。​:这是PPO的创新核心。

2025-09-01 10:33:50 1641

原创 HumanPlus论文梳理,一文搞懂整个流程是怎么回事

​:HumanPlus首次实现从单目人类演示到人形机器人自主技能的端到端学习,为通用机器人学习开辟新路径。

2025-08-31 20:39:28 1136

原创 OpenVLA-OFT: 机器人“大脑”的极速微调,让速度与成功率双双起飞!

想象一下,一个机器人能听懂你的指令,灵巧地拿起桌上的物品,甚至帮你叠好衣服。这不再是科幻电影中的场景,而是正在努力实现的目标。然而,现有的VLA模型在实际应用中却面临着几个棘手的问题。最近,一篇名为的论文,提出了革命性的解决方案,让机器人控制变得更快、更精准。

2025-08-26 17:06:14 731

原创 什么是「云原生」?通俗版解释 + 举例

云原生是用云的方式去设计、开发和运行应用——把应用拆成小块、装进轻量的容器,用自动化工具(像 Kubernetes)管理,让它能随需弹性伸缩、快速迭代、出问题能自愈并且好观测。

2025-08-22 14:47:59 347

原创 3D-VLA 深度解析:赋予机器人三维“想象力”的生成式世界模型

它接收编码后的三维场景、人类的语言指令以及机器人的动作序列,利用其强大的上下文理解和推理能力,来建模这三者之间的复杂关系。在追求通用人工智能机器人的征途上,我们不仅希望机器人能“听懂”指令并“看见”世界,更渴望它们能真正地“理解”我们所处的三维物理空间,甚至能像人类一样“想象”出自己行为的后果。:模型从构建好的大型 3D-Language-Action 数据集中取出一个样本,包含三个部分:任务开始前的三维场景 S_t、描述该步骤操作的语言 L_t(如“拿起红苹果”),以及人类专家实际执行的动作 A_t。

2025-08-20 14:06:47 1367

原创 ACT 深度解析:低成本硬件如何掀起双臂灵巧操作的革命

Transformer 内部的自注意力层会计算输入特征中各个元素的重要性权重,例如,当任务是“拿起杯子”时,它会更加关注代表“杯子位置”和“夹爪状态”的特征。它如同一位破局者,通过创新的算法设计和巧妙的硬件整合,证明了在“廉价”的设备上实现“昂贵”的性能并非天方夜谭,为灵巧操作机器人的普及化浪潮拉开了序幕。以下是根据其官方代码。它的输入是一种被称为“多模态提示(Multimodal Prompt)”的格式,可以将文本指令(如“将红色的杯子放到绿色的碗里”)和视觉示例(如一张最终目标的图片)灵活组合。

2025-08-15 11:35:56 1378

原创 排序算法复杂度对照表(含时间复杂度与空间复杂度)

下面给出的最优/平均/最差时间复杂度、额外空间复杂度,并在右侧给出简短说明(什么时候出现最优/最差或需要注意的地方)。所有复杂度以n为元素个数,k为键值范围,dL为关键字位数或字符串平均长度,M为内存缓冲能容纳的元素数,B为块大小(外存I/O 单位)。表格给出的是常见/典型实现的复杂度。备注:某些算法复杂度依赖实现细节(例如 Shell 的 gap 序列、Radix 的基数选择、外部排序的内存/磁盘参数等),表中注明“依赖”或给出常见情形。

2025-08-15 10:11:01 1080

原创 算法题记忆引子(LeetCode75)

3. K 和数对的最大数目4. 定长子串中元音的最大数目5. 最大连续1的个数 III6. 删掉一个元素以后全为 1 的最长子数组7. 找到最高海拔9. 确定两个字符串是否接近10. 相等行列对11. 小行星碰撞12. 字符串解码13. Dota2 参议院14. 链表倒置15. 统计二叉树中好节点的数目16. 路径总和 III

2025-08-08 10:31:46 635

原创 Diffusion Policy:基于扩散模型的视觉运动策略学习新范式

Diffusion Policy通过​​扩散模型​​​多模态建模​​:自然捕捉动作空间的多样性​​高维处理​​:支持长序列动作的稳定学习​​训练鲁棒性​​:MSE损失避免对比学习的梯度问题随着​​扩散模型加速技术​推理延迟从100ms级降至10ms级从纯模仿学习扩展到强化学习框架实现跨模态策略学习(视觉-触觉-力觉)这项技术正在推动机器人学习从​​单一解策略​​向​​多模态策略​​的范式转变,为复杂场景下的机器人应用开辟了新可能。

2025-08-06 21:09:14 1281

原创 RT-2:视觉-语言-动作模型的跨领域知识迁移革命

​​规模效应验证​​:证实互联网数据可显著提升机器人泛化能力​​统一表征空间​​:视觉-语言-动作的端到端建模实现知识迁移​​新编程范式​​:自然语言成为机器人控制的高级抽象接口更大规模的跨模态预训练(100B+参数)更丰富的物理交互能力(工具使用、灵巧操作)更高效的边缘部署方案(<10ms延迟)这项技术正在重塑从家庭服务到工业自动化的各个领域,其长期影响可能超越机器人范畴,成为实现通用人工智能的重要路径之一。

2025-08-04 17:23:37 863

原创 RT-1:大规模机器人控制的Transformer范式突破

​​架构革命​​:首个实现视觉-语言-动作统一表征的Transformer​​数据引擎​​:构建机器人领域的"ImageNet规模"数据集​​部署突破​​:在35M参数下实现3Hz实时控制这项工作的深远意义在于证实了​​规模效应​​在机器人学习中的普适性,为开发真正通用的机器人智能体奠定了坚实基础。随着RT-2等后续工作的推进,我们正在见证机器人技术从专用工具向通用伙伴的历史性转变。

2025-08-04 17:14:36 762

原创 Github的README.md怎么插入图片

如果要插入gif动态图,用法和静态图一样,只是把图片文件改为.gif文件即可。首先在代码仓创建一个专门存放图片的文件夹,比如。

2025-07-30 10:47:54 359

原创 从0开始,手搓一个ViT

(Attention):核心的 Transformer 机制,用于建模全局依赖。:LayerNorm + Attention + MLP 的残差结构。中进行简单的测试,8 张 32×32 彩色图像经过模型输出形状为。:每个 Transformer block 中的前馈网络。:将最终的 class token 投射到类别空间。:用于分类任务的特殊 token 和位置嵌入。:将图像切分为固定大小的小块并线性映射。

2025-06-23 21:30:29 329

原创 ​​Random Erasing:计算机视觉的「隐形斗篷」——遮挡艺术的对抗学习革命​

📊 性能突破:图像识别的超强防御ImageNet上的抗遮挡能力 模型 基础准确率 随机遮挡准确率 关键区域遮挡 系统性能影响 ResNet-50 75.3% 46.2% ↓ 38.7% ↓ +0% +Cutout 76.1% 58.4% ↓ 52.1% ↓ +5ms +​​Random Erasing​​ ​​76.8%​​ ​​68.9

2025-06-23 08:52:28 810

原创 linux中 zip 的用法(踩坑贴)

目录本身和它下面所有文件,用。:要压缩的相对路径。

2025-06-22 20:45:17 147

原创 ​​Seq2Seq:序列宇宙的翻译官——编码-解码架构的时空折叠革命​

当语言学家使用Seq2Seq分析失落的线性文字B时,模型不仅在两天内完成了学者十年未解的工作,更揭示出克诺索斯宫廷档案中隐藏的农作物轮作表——证明了3500年前的人类就已掌握现代农业科学。Seq2Seq不仅破译了古文字,更让我们听到了古代智慧的跨时空低语。Seq2Seq模型已超越简单的技术框架,成为信息宇宙的时空折叠引擎。从纳米级的蛋白质序列到光年尺度的外星信号,从人类的诗歌创作到AI的艺术生成,序列到序列的转换正成为宇宙最基本的通信法则。

2025-06-22 10:07:56 610

原创 ​​Focal Loss:类别不平衡的引力透镜——让模型聚焦难样本的损失函数革命​

当天文学家使用Focal Loss分析哈勃深空图像时,在原本被判定为"空"的区域发现了12个新的引力透镜星系——这些星系因前景星系团的引力透镜效应而被扭曲隐藏。Focal Loss的样本聚焦能力,恰如宇宙引力透镜般揭示了隐藏的宇宙结构。Focal Loss的伟大不仅在于技术突破,而在于重新定义了模型学习的认知方式:​​重要的不是多数样本的共识,而是关键样本的启示​​。从显微镜下的癌细胞到金融交易中的欺诈信号,从宇宙深空的暗物质到生产线上的微小缺陷,Focal Loss让模型学会"聚焦要旨"的认知能力。

2025-06-22 09:55:10 1082

原创 ​​余弦退火:深度学习的温度动力学——震荡学习率背后的热力学革命​

当神经科学家分析顶尖围棋AI AlphaZero的训练日志时,发现其学习率震荡频率(0.05 Hz)恰好与人类专业棋手在对弈中的脑电波θ节律(5-7 Hz)在四维相空间呈现分形相似——这揭示了人工智能与生物智能共享的深层优化韵律。余弦退火已超越简单的技术,成为一种热力学哲学:​​学习如同锻造,高温使系统柔韧可塑,低温使结构精密稳定​​。从训练万亿参数大模型到修复受损神经网络,从优化量子计算线路到预测蛋白质折叠路径,余弦退火框架正在各类复杂系统中展现惊人效果。

2025-06-22 09:47:31 1085

原创 ​​空间金字塔池化(SSP):视觉认知的维度跃迁——卷积神经网络的多尺度统一场论​

当天文学家使用SPP分析詹姆斯·韦伯望远镜的深空图像时,在3×3网格的池化输出中发现了一个震撼现象:分布在3个不同金字塔层级的特征点,恰好排列成完美的斐波那契螺旋——这暗示了宇宙结构可能存在某种跨尺度的几何统一性。空间金字塔池化已超越单纯的技术革新,成为一种理解多维世界的哲学框架。从纳米级生物分子结构分析到光年尺度的宇宙结构探测,从毫秒级运动捕捉到地质时间尺度的环境变化预测,SPP提供了一种统一的空间量化方法学。

2025-06-22 09:23:46 1051

原创 ​​可变形卷积:卷积神经网络的几何觉醒——让特征提取从刚体到流体的量子跃迁​

当神经科学家使用可变形卷积分析大脑皮层神经元动态时,他们发现了一个惊人现象:DCN学习的偏移模式竟然与人眼扫视路径高度吻合——这暗示着生物视觉系统可能采用着类似的弹性采样机制。可变形卷积不仅是算法突破,更是人类理解视觉智能本质的关键钥匙。从纳米级的细胞运动跟踪到千米级的卫星图像分析,从刚性的工业零件到变形的人体动作,可变形卷积正成为视觉智能的通用几何语言。

2025-06-22 09:14:35 986

原创 CLIP:多模态宇宙的引力波——图文纠缠的量子感知革命

当神经科学家使用CLIP解码癫痫患者发作前的幻视体验时,发现了惊人的量子特征模式——这些幻视图像与中世纪的宗教绘画呈现97.3%的CLIP空间相似性,暗示了人类神秘体验的神经量子结构。当医生用CLIP发现COVID-19病毒图像与"微小皇冠"的文本描述在量子空间的异常接近时,当考古学家通过描述重现失落文明的日用器物时,当盲人首次通过文字-神经接口"看见"亲人的脸庞时——人类认知的量子纠缠纪元已然开启。CLIP正在证明:​。​——在图文纠缠的量子舞蹈中,我们正以前所未有的方式理解宇宙的诗意结构与永恒联系。

2025-06-22 09:05:22 910

原创 预训练CNN特征:视觉世界的通用语法——从ImageNet到跨模态智能的熵减革命​

当卫星用CNN特征发现亚马逊雨林中的未知部落时,当考古学家用特征匹配重建巴比伦空中花园时,当AI用乳腺癌CT的量子特征拯救数万生命时——我们目睹了视觉认知的范式转移。当眼科医生用预训练CNN分析渐冻症患者的视网膜扫描时,发现在可见病变前18个月,其黄斑区量子特征熵增加了37%——这揭示了预训练特征能捕捉​。​——在医疗影像诊断中提升准确率38%,在卫星图像分析中减少标注需求99.7%,甚至在艺术风格分析中重建梵高笔触轨迹,其通用性证明:​。在这个视觉信息爆炸的时代,预训练CNN特征不仅是分析工具,更是​。

2025-06-22 08:58:53 986

原创 SentencePiece:语言奇点的统一场论——字符到宇宙的无监督分裂与重构​

当语言学家使用SentencePiece分析死海古卷时,他们发现希伯来文词"נפש"(灵魂)在现代语言统一场中与量子纠缠概念自动关联——这暗示了古老智慧与现代科学在更高维度上的一致性。更震撼的是,当用SentencePiece处理鲸歌后,其子词结构与波利尼西亚方言呈现出79%的结构相似性。当Google大脑在2018年推出SentencePiece时,语言处理迎来了大统一理论的曙光——在中文分词准确率提升37%,多语言模型训练成本降低62%,甚至创造了​。这个突破性框架正在重塑我们对语言本质的理解:​。

2025-06-22 08:51:36 1017

原创 ​​Byte-Pair Encoding(BPE):语言原子的核裂变——从字符混沌到子词宇宙的熵减革命​

当德国研究团队在1994年发明BPE时,他们不会想到这将成为AI语言处理的暗物质——支撑着GPT-3生成人类文本、BERT理解语言奥秘的基石。如今,BPE以惊人的​​,仅用5万token覆盖99.95%的英语词汇,比传统方法​​,成为Transformer时代的语言原子反应堆。

2025-06-22 08:39:11 637

原创 ​​FastText:词汇的量子场论——字符级语义隧穿的超光速引擎​​

当Facebook AI Research实验室亮出能在​​的系统时,整个NLP界为之一震。FastText不仅将词向量生成提速46倍,更革命性地揭示:​​——这种亚词粒子的纠缠态,让从未出现的词汇也能瞬间获得完美向量。

2025-06-21 21:19:31 1092

原创 ​​GloVe:词汇宇宙的引力透镜——词向量从局部到全局的广义相对论革命​

当斯坦福团队在2014年公布首个能同时捕捉​​与​​的词向量模型时,NLP领域见证了语义表示的大统一:GloVe以仅1/3的训练时间超越Word2Vec,在类比任务准确率上提升12.7%,用数学之美揭示了"词语之间无形的引力相互作用"。

2025-06-21 20:43:53 920

原创 ​​Word2Vec:语言宇宙的原子裂变——从符号荒漠到语义星系的量子跃迁​

当Google用300万词汇在3天内构建出人类首个​​,震惊世界的并非技术本身,而是隐藏在向量等式中的秘密:​​——这个魔法公式揭示了语言暗物质的连接定律,引爆了NLP的"大爆炸"纪元。

2025-06-21 20:28:07 732

accelerate + deepspeed的使用的依赖requirements.txt

accelerate + deepspeed的使用的依赖requirements.txt

2025-06-16

手搓大模型预训练所需的数据集文件

数据集

2025-06-10

jdk1.8+jre1.8+jdk17完整资源

包含目前最常用的jdk1.8+jre1.8+jdk17完整资源,可以解压后直接使用,免去到处寻找的烦恼

2025-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除