- 博客(72)
- 收藏
- 关注
原创 Scaling Vision Transformers
总而言之,《Scaling Vision Transformers》这篇论文首次系统地揭示了Vision Transformer的缩放规律,证明了ViT模型同样具备巨大的缩放潜力。它不仅为指导未来大规模视觉模型的设计提供了关键依据和方法论,其催生的巨型预训练ViT模型也成为了后续许多研究的基础。希望以上解说能帮助你更好地理解这篇论文。如果你对其中提到的某个具体技术点,比如模型的具体优化细节,或者对ScopeViT这样的后续工作特别感兴趣,我们可以继续深入探讨。
2025-11-25 18:02:54
355
原创 Transformer结构模型有卷积神经网络模型中的Inductive bias(归纳偏置)吗
归纳偏置是模型为学习任务和解决问题所做的一系列假设。它引导模型以某种特定方式学习,决定了模型如何将学到的知识推广到新的、未见过的数据上。一个没有归纳偏置的模型就像一张白纸,学习效率极低。好的归纳偏置可以让模型用更少的数据更高效地学习到正确的模式。特性卷积神经网络 (CNN)核心关系局部、固定的连接全局、动态的连接空间假设强局部性平移等变性弱/无局部性,关系由数据驱动权重静态,卷积核权重在训练后固定动态,注意力权重随输入变化对数据的假设少,因为结构本身已经注入了很强的图像先验。
2025-11-25 16:29:28
380
原创 SigLIP- Sigmoid Loss for Language Image Pre-Training
特性Softmax Loss (交叉熵)Sigmoid Loss (二元交叉熵)问题建模单标签、互斥的多类分类多标签、非互斥的二分类正样本假设一个锚点(如图像)仅与一个正样本(文本)配对一个锚点可以同时与多个正样本相关对噪声数据的鲁棒性较弱,容易受“假负样本”影响较强,能更好地处理语义相关的负样本计算需要在整个批次上进行归一化(Softmax)每个对数独立计算,易于并行适用场景数据干净、配对严格一对一真实世界数据,存在噪声和多对多关系。
2025-11-25 15:40:19
856
原创 ZeroFlow: Overcoming Catastrophic Forgetting is Easier than You Think
Sure!
2025-10-27 17:10:59
592
原创 Scaling Vision Transformers to 22 Billion Parameters
QKV计算&layerNorm不使用偏置。query key做layerNorm。attn与MLP并行。
2025-08-06 16:32:13
353
原创 Vision-based Uneven BEV Representation Learning with Polar Rasterization and Surface Estimation
非均匀BEV地平线 CoRL 2022。
2025-07-02 22:05:30
954
原创 OccFormer- Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction
基于transformer单目单相机/多相机纯视觉occupancy模型鉴智机器人 ICCV 2023paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Zhang_OccFormer_Dual-path_Transformer_for_Vision-based_3D_Semantic_Occupancy_Prediction_ICCV_2023_paper.pdfcode: https://github.com/zhangyp15
2025-06-26 21:48:03
1086
原创 FB-OCC: 3D Occupancy Prediction based on Forward-BackwardView Transformation
workshop。
2025-06-23 20:05:17
264
原创 PillarNet: Real-Time and High-PerformancePillar-based 3D Object Detection
ECCV 2022纯点云基于pillar3D检测模型。
2025-06-23 18:06:02
903
原创 MaskFormer- Per-Pixel Classification is Not All You Need for Semantic Segmentation
mask与gt匹配:(1)bipartite matching(DETR)(2)直接按类别一一对应。分类loss(cross entropy)2D语义分割transformer模型。生成K个01mask、并分出对应类别。
2025-06-18 17:23:51
158
原创 BEVDepth- Acquisition of Reliable Depth for Multi-view 3D Object Detection
中科院 旷视 AAAI 2023。纯视觉多相机BEV方案检测模型。
2025-05-28 22:13:39
338
原创 ViT- an image is worth 16x16 words- transformers for image recognition at scale
输入:图像。
2025-05-26 18:11:21
157
原创 DETR3D- 3D Object Detection from Multi-view Images via 3D-to-2D Queries
纯视觉BEV方案transformer网络3D检测。
2025-05-23 21:54:11
678
原创 PETR- Position Embedding Transformation for Multi-View 3D Object Detection
目标:环视相机的2D特征,加3D位置编码,转成3D表征。纯视觉BEV方案transformer网络3D检测。旷视 ECCV 2022。
2025-05-23 18:05:37
590
原创 CaDDN- Categorical Depth Distribution Network for Monocular 3D Object Detection
单目纯视觉BEV检测模型。
2025-05-22 17:31:46
491
原创 LSS- Lift, Splat, Shoot
对voxel索引用类似幂次底的方法计算一个ranks,按ranks的argsort排序索引对:(1)cam feats内容(2)voxel索引的内容(3)ranks自己,重新排序,构建一个(B,C,1,200,200)大小的spaceholder,按voxel索引把cam feats对应索引位置的数值填进去,完成:2D特征映射到bev空间。ds xs ys 都expand到shape(41,8,22),dim=-1 stack到一起(41,8,22,3)
2025-05-21 16:47:23
548
原创 termux传文件
手机上 查看ip 开一个端口:sshd -p 8022 查看user:whoami pc上 scp -P 8022 file user@192.168.xx.xx:/data/data/com.termux/files/home
2024-03-18 00:03:37
566
原创 2022.1.7 19:30
每天都在离开上海倒计时。自从高中毕业莫名其妙的来到了这座城市,就自然而然地开始熟悉我身边关于这座城市的一切——红屋顶的老房子、南北高架、很小的昼夜温差、大小道路两边的梧桐、数不清的奶茶店。一切都理所当然,也从未想过什么时候会离开,但当逐渐醒悟离开的时间越来越近了时,连1月里仍然深绿的桂树和草坪都变得难以割舍。前几日在黄埔滨江的BFC散步,从地下舒适的餐饮场所出来后,才发现外面刚下过一场大雨,黑乎乎的地面零星反射高层建筑的暖色灯光,隔一条马路就是黄浦江。外滩十六号上刮着冷风,对岸的陆家嘴一成不变。不知道为什么
2022-01-07 20:29:11
477
1
原创 macOS设置NTFS移动硬盘可写权限
在MacBook上外接移动硬盘看电影,发现无法播放。App Store里的一些付费软件可以设置能够播放,但是会修改文件权限,给视频文件增加扩展属性@。这样下次再重新插入硬盘,使用这些软件视频也无法播放了,需要另外修改权限,很麻烦,而且后续必须依赖这些软件。去除某文件的附加属性$ xattr -c filename去除某目录下所有文件、目录的附加属性$ xattr -c -r path可以直接通过如下方法修改macOS对NTFS移动硬盘对读写权限,不会出现如上问题。1.查看挂载的磁盘列表,
2021-09-25 18:59:37
2330
原创 2021.6.6 21:27
时隔六个月审核不过重新编辑了一遍..从上个月联系转租,带人看房到搬家再重新找房,现在已经在酒店住了整整一周了...上了一天半班体验了下fb厂的生活,此外什么正经事也没做,如果日夜不休地看电影不算的话。可能是太久没有专业上和人接触,又或者是自己又一次置身于这种自己身份位置最低的社交环境,一直都非常紧张,很难组织出流畅的语言来表达想法,大多数时间里干脆放弃了思考,也完全不想说话。今天回想了下这种当时没能发觉但总觉得不适的感受,nm,这是cnn的职场性别歧视啊...什么叫女生本身就很多人都缺少逻辑,什么叫
2021-06-06 22:13:00
216
原创 给定字符串调用类中的相应函数
StackOverflow给的方法:Calling a function of a module by using its name (a string) - Stack Overflow还有一些from operator import methodcaller,global(),local()的方法,这段代码是调用CustomStack中各种函数来对栈对象操作的class CustomStack: def __init__(self, maxSize: int): s.
2020-10-05 23:08:37
201
原创 2020.6.21 21:30
谁能想到,我已经在家里呆了6个多月了,整个一无业游民。。昨天和姐去游戏厅玩了几个小时,其中有个弹琴游戏的机器,列表上有寂静岭的Promise。一捧红色的花。一些被编码的生命的一部分器官,另一些被用更高级的编码编码的生命才能够欣赏到这种美丽。他们的院子,和我没有什么关系,我上来抽烟,烟都被风抽了。她不会回来的。Somehow I wish I could see you again.Somehow I am still peeking in your l...
2020-06-21 21:47:45
340
原创 torch.mul, mm, matmul, bmm, broadcast乘法机制
torch.mm只能让两个二维tensor作矩阵乘法 torch.mul作element-wise的矩阵点乘,维数不限,可以矩阵乘标量 torch.bmm作batch单位的矩阵乘法,维度只能为3。当第0维维数不等时报错,但可用matmul相乘 torch.matmul 正常的矩阵乘法运算,两个输入必须都是Tensor...
2020-04-21 22:23:47
2749
2
原创 整理python-opencv常用方法和报错
error: (-215) dims <= 2 && step[0] > 0 in function locateROI没有读取到文件,可能是路径、文件名、后缀错了error: (-215:Assertion failed) src.type() == CV_8UC1 in function threshold...
2020-04-08 15:49:15
1148
原创 整理pytorch报错
Stack Overflow[1]中有这个问题的描述,自己写了一个dice loss,没法反向传播,报这个错。原因应该是因为用了torch.argmax(),好像这个函数不可导,所以没法反向传播。但是...
2020-03-10 22:54:43
9478
8
原创 从docker container获取文件
special thanks to 我学长们万事开头难首先,网站给的说明是这样的,我们可以在他的docker容器里运行程序,但我只想获取文件test data正好实验室的服务器装了docker,找学长要了sudo权限↓拉取了sharibox.endocv2020:latest的镜像(image)创建容器由于容器还没有启动(不知道为什么创建后没有自动启...
2020-02-16 16:35:30
1928
原创 RuntimeError: CUDA error: device-side assert triggered
模型训练着突然报错,没找到问题在哪,把这个错简单复现了一下,网上都说是torch.nn.functional的cross_entropy的input和target上出了问题,target的index不对什么的[1,2],如下:target是[1,2,3]和[2,3,0]都没问题,[1,2,100]和[99,100,101]就不对,还没搞明白,先记一下。[1]https://blog.csdn...
2019-12-29 14:58:05
6300
转载 AttributeError: module 'scipy.misc' has no attribute 'imread'
AttributeError: module 'scipy.misc' has no attribute 'imread'。查阅网上资料之后发现,大部分解决办法都是说没有安装PIL第三方库,库名现在为Pillow,推荐直接使用命令pip install Pillow进行安装,但是我的问题并没有因此得到解决,还是继续报错AttributeError: module 'scipy.misc' ha...
2019-12-14 15:29:22
312
原创 2019.11.13 00:03
不知不觉又过零点了。。一直时不时想写点什么,但又觉得最近的生活实在不值一提。晚上吃完麻辣烫从孙桥回来,烫到舌头,想买蛋黄酥但是没买。回来想抽烟但是烟抽完了,盒子也扔了。昨日傍晚点的甜品外卖。不记得哪天拍的校园,一成不变的布置。傍晚晴天,热闹的孙桥,熙熙攘攘的人们,本地的,外地的,老人,妇女,儿童,还有我这个不想吃食堂、也不想和学长们一起吃...
2019-11-13 00:32:03
253
原创 Linux服务器上装Anaconda和PyTorch
安装Anacondawget 要装的anaconda版本,anaconda2带的是Python2.7,anaconda3带的是3.7,不要选错了。然后bash 这个.sh文件进行安装。如果anaconda装好了还想装其他的Python版本,比如conda create --name python37 python=3.7,这样装Python3.7。然后执行activate python37...
2019-11-10 00:56:24
1218
原创 numpy中repeat和tile用法,区别于torch.repeat()
numpy中repeat和tile用法:原博:https://blog.youkuaiyun.com/henryghx/article/details/16906235torch.repeat()文档见:https://pytorch.org/docs/stable/tensors.html?highlight=repeat#torch.Tensor.repeatPyTorch中的r...
2019-09-24 21:08:28
3944
原创 pytorch整型tensor调用Dropout导致kernel自动重启
遇到一个奇怪的问题运行上面的代码,导致kernel直接重启,如下图,而且没有报错将arange(0, 12)改成浮点型arange(0., 12.)可以正常Dropout,输出结果。或者写成:input = t.arange(0, 12).float().view(3, 4)添加一个.float(),也没问题。目前只在Dropout上发现这个问题,其他方法没试过。...
2019-09-23 22:38:18
359
原创 1*1卷积层的作用(pointwise convolution)
自己画了一张图:一个n*n,256个通道的feature map,经过一个1*1,64层的卷积核进行卷积,结果得到一个n*n,64通道的map,相当于发生了降维。即ResNet的设计的bottleneck的第一步:256-d经1x1,64进行降维。第二步从64通道到256通道同理。关于参数数量的减少具体参见这篇博客:https://blog.youkuaiyun.com/renhaofan...
2019-09-04 14:31:41
4154
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅