justtoomuchforyou-优快云博客

原创 Scaling Vision Transformers

总而言之，《Scaling Vision Transformers》这篇论文首次系统地揭示了Vision Transformer的缩放规律，证明了ViT模型同样具备巨大的缩放潜力。它不仅为指导未来大规模视觉模型的设计提供了关键依据和方法论，其催生的巨型预训练ViT模型也成为了后续许多研究的基础。希望以上解说能帮助你更好地理解这篇论文。如果你对其中提到的某个具体技术点，比如模型的具体优化细节，或者对ScopeViT这样的后续工作特别感兴趣，我们可以继续深入探讨。

2025-11-25 18:02:54 355

原创 Transformer结构模型有卷积神经网络模型中的Inductive bias(归纳偏置)吗

归纳偏置是模型为学习任务和解决问题所做的一系列假设。它引导模型以某种特定方式学习，决定了模型如何将学到的知识推广到新的、未见过的数据上。一个没有归纳偏置的模型就像一张白纸，学习效率极低。好的归纳偏置可以让模型用更少的数据更高效地学习到正确的模式。特性卷积神经网络 (CNN)核心关系局部、固定的连接全局、动态的连接空间假设强局部性平移等变性弱/无局部性，关系由数据驱动权重静态，卷积核权重在训练后固定动态，注意力权重随输入变化对数据的假设少，因为结构本身已经注入了很强的图像先验。

2025-11-25 16:29:28 380

原创 SigLIP- Sigmoid Loss for Language Image Pre-Training

特性Softmax Loss (交叉熵)Sigmoid Loss (二元交叉熵)问题建模单标签、互斥的多类分类多标签、非互斥的二分类正样本假设一个锚点（如图像）仅与一个正样本（文本）配对一个锚点可以同时与多个正样本相关对噪声数据的鲁棒性较弱，容易受“假负样本”影响较强，能更好地处理语义相关的负样本计算需要在整个批次上进行归一化（Softmax）每个对数独立计算，易于并行适用场景数据干净、配对严格一对一真实世界数据，存在噪声和多对多关系。

2025-11-25 15:40:19 856

原创 ZeroFlow: Overcoming Catastrophic Forgetting is Easier than You Think

Sure!

2025-10-27 17:10:59 592

原创 NEFTUNE

【代码】NEFTUNE。

2025-10-27 16:31:24 649

原创 Scaling Vision Transformers to 22 Billion Parameters

QKV计算&layerNorm不使用偏置。query key做layerNorm。attn与MLP并行。

2025-08-06 16:32:13 353

原创 MLP-Mixer: An all-MLP Architecture for Vision

纯MLP视觉模型。

2025-08-05 19:33:34 460

原创 Vision-based Uneven BEV Representation Learning with Polar Rasterization and Surface Estimation

非均匀BEV地平线 CoRL 2022。

2025-07-02 22:05:30 954

原创 OccFormer- Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction

基于transformer单目单相机/多相机纯视觉occupancy模型鉴智机器人 ICCV 2023paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Zhang_OccFormer_Dual-path_Transformer_for_Vision-based_3D_Semantic_Occupancy_Prediction_ICCV_2023_paper.pdfcode: https://github.com/zhangyp15

2025-06-26 21:48:03 1086

原创 FB-OCC: 3D Occupancy Prediction based on Forward-BackwardView Transformation

workshop。

2025-06-23 20:05:17 264

原创 PillarNet: Real-Time and High-PerformancePillar-based 3D Object Detection

ECCV 2022纯点云基于pillar3D检测模型。

2025-06-23 18:06:02 903

原创 MaskFormer- Per-Pixel Classification is Not All You Need for Semantic Segmentation

mask与gt匹配：（1）bipartite matching（DETR）（2）直接按类别一一对应。分类loss（cross entropy）2D语义分割transformer模型。生成K个01mask、并分出对应类别。

2025-06-18 17:23:51 158

原创 c++ algorithm

使用乘法运算函数对象std::multiplies，计算元素累乘。

2025-06-03 15:57:11 201

原创 BEVDepth- Acquisition of Reliable Depth for Multi-view 3D Object Detection

中科院旷视 AAAI 2023。纯视觉多相机BEV方案检测模型。

2025-05-28 22:13:39 338

原创 Attention Is All You Need

【代码】Attention Is All You Need。

2025-05-26 19:58:37 223

原创 ViT- an image is worth 16x16 words- transformers for image recognition at scale

输入：图像。

2025-05-26 18:11:21 157

原创 einops.layers.torch.Rearrange作用

【代码】einops.layers.torch.Rearrange作用。

2025-05-26 17:33:55 261

原创 DETR3D- 3D Object Detection from Multi-view Images via 3D-to-2D Queries

纯视觉BEV方案transformer网络3D检测。

2025-05-23 21:54:11 678

原创 PETR- Position Embedding Transformation for Multi-View 3D Object Detection

目标：环视相机的2D特征，加3D位置编码，转成3D表征。纯视觉BEV方案transformer网络3D检测。旷视 ECCV 2022。

2025-05-23 18:05:37 590

原创 CaDDN- Categorical Depth Distribution Network for Monocular 3D Object Detection

单目纯视觉BEV检测模型。

2025-05-22 17:31:46 491

原创 BEVDet

基于LSS做了几点改进。

2025-05-21 20:36:23 168

原创 LSS- Lift, Splat, Shoot

对voxel索引用类似幂次底的方法计算一个ranks，按ranks的argsort排序索引对：（1）cam feats内容（2）voxel索引的内容（3）ranks自己，重新排序，构建一个（B，C，1，200，200）大小的spaceholder，按voxel索引把cam feats对应索引位置的数值填进去，完成：2D特征映射到bev空间。ds xs ys 都expand到shape（41，8，22），dim=-1 stack到一起（41，8，22，3）

2025-05-21 16:47:23 548

原创 ssh生成公钥不回车

【代码】ssh生成公钥不回车。

2024-08-05 21:39:41 377

原创 termux传文件

手机上查看ip 开一个端口：sshd -p 8022 查看user：whoami pc上 scp -P 8022 file user@192.168.xx.xx:/data/data/com.termux/files/home

2024-03-18 00:03:37 566

原创 2022.1.7 19:30

每天都在离开上海倒计时。自从高中毕业莫名其妙的来到了这座城市，就自然而然地开始熟悉我身边关于这座城市的一切——红屋顶的老房子、南北高架、很小的昼夜温差、大小道路两边的梧桐、数不清的奶茶店。一切都理所当然，也从未想过什么时候会离开，但当逐渐醒悟离开的时间越来越近了时，连1月里仍然深绿的桂树和草坪都变得难以割舍。前几日在黄埔滨江的BFC散步，从地下舒适的餐饮场所出来后，才发现外面刚下过一场大雨，黑乎乎的地面零星反射高层建筑的暖色灯光，隔一条马路就是黄浦江。外滩十六号上刮着冷风，对岸的陆家嘴一成不变。不知道为什么

2022-01-07 20:29:11 477 1

原创 macOS设置NTFS移动硬盘可写权限

在MacBook上外接移动硬盘看电影，发现无法播放。App Store里的一些付费软件可以设置能够播放，但是会修改文件权限，给视频文件增加扩展属性@。这样下次再重新插入硬盘，使用这些软件视频也无法播放了，需要另外修改权限，很麻烦，而且后续必须依赖这些软件。去除某文件的附加属性$ xattr -c filename去除某目录下所有文件、目录的附加属性$ xattr -c -r path可以直接通过如下方法修改macOS对NTFS移动硬盘对读写权限，不会出现如上问题。1.查看挂载的磁盘列表，

2021-09-25 18:59:37 2330

原创 2021.6.6 21:27

时隔六个月审核不过重新编辑了一遍..从上个月联系转租，带人看房到搬家再重新找房，现在已经在酒店住了整整一周了...上了一天半班体验了下fb厂的生活，此外什么正经事也没做，如果日夜不休地看电影不算的话。可能是太久没有专业上和人接触，又或者是自己又一次置身于这种自己身份位置最低的社交环境，一直都非常紧张，很难组织出流畅的语言来表达想法，大多数时间里干脆放弃了思考，也完全不想说话。今天回想了下这种当时没能发觉但总觉得不适的感受，nm，这是cnn的职场性别歧视啊...什么叫女生本身就很多人都缺少逻辑，什么叫

2021-06-06 22:13:00 216

空空如也

空空如也