- 博客(62)
- 收藏
- 关注
原创 Paper Reading: AnomalyGPT:利用大型视觉-语言模型检测工业异常 (AAAI 2024 Oral)
题目:《AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models》,AnomalyGPT:利用大型视觉-语言模型检测工业异常, AAAI 2024 Oral日期:2023.12.28单位:中国科学院自动化研究所,中国科学院大学,中科视语(北京)科技有限公司,武汉人工智能研究院论文地址:https://arxiv.org/abs/2308.15366作者。
2025-03-18 01:28:50
820
原创 Paper Reading: 探索多类无监督异常检测的状态空间模型, MambaAD (NeurIPS 2024)
基于重构的方法,如RD4AD和UniAD,(比基于特征嵌入和合成的方法)表现出优越的性能和更好的可扩展性如图 1 (a) :基于 CNN 的 RD4AD 有效地捕获本地上下文,但它缺乏建立远程依赖的能力。如图 1 (b):UniAD是第一个多类 AD 算法,依赖于预训练的编码器和转换器解码器架构。尽管变压器具有优越的全局建模能力,但它受到二次计算复杂度的阻碍,它将UniAD限制在最小特征图上的异常检测,可能会影响其性能。
2024-12-31 00:18:15
1014
原创 Paper Reading: EfficientAD:毫秒级延迟的准确视觉异常检测
提出了 EfficientAD,在工业异常检测领域实现了性能和推理运行时间的新标准。 先引入了一种高效的网络架构,可以在现代 GPU 上以不到一毫秒的速度计算表达特征。使用学生-教师方法,训练学生网络来预测教师网络(教师网络经过预训练)在正常(即无异常)训练图像上计算的特征。由于学生没有接受过异常图像方面的训练,因此通常无法在这些方面模仿老师。因此,教师和学生的输出之间存在较大距离,因此可以在测试时检测到异常情况。
2024-06-20 19:32:52
2909
3
原创 Paper Reading: PAMS:通过参数化最大尺度量化超分辨率
之前就有压缩深度SR网络的方法,本质上,这种方法是通过量化方案来加速和压缩超分辨率(SR)网络,具体做法是将全精度权重、激活和梯度转换到低比特。但作者认为之前的方法存在问题量化范围不够普适,导致性能的下降:1. 使用固定编码长度量化权重和激活值,尤其是在低比特情况下;2. 大多数没有批量归一化的最新SR模型具有较大的动态量化范围。使用全精度激活,计算复杂性仍然显著偏高。
2024-06-19 14:41:38
1145
原创 VLM与基础分割模型的联合使用
最近做的项目里有涉及大模型,里面有一部分的功能是:将图片输入VLM(视觉语言模型,我使用的是llava),询问图中最显著的物体,将其给出的答案作为基础分割模型(我使用的是Grounded-SAM)的text prompt,基础分割模型输出目标物体的mask(可能会有uu疑问,为什么不直接问Grounded-SAM两次)如果还是不理解这样做的理由(为什么不直接用既能多轮对话又能分割出mask的多模态大模型呢),那就把这篇当作两个大模型的使用记录吧。
2024-05-06 12:08:20
1441
2
原创 Paper Reading: MixTeacher:半监督目标检测中利用混合尺度教师挖掘有前景的标签
题目:《MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object Detection》,CVPR 2023日期:2023.3.16单位:腾讯,上海交通大学,浙江大学,荣旗工业科技公司论文地址:http://arxiv.org/abs/2303.09061作者。
2024-04-11 23:31:49
1417
2
原创 Paper Reading: 用于半监督实例分割的指导蒸馏, Guided Distillation for Semi-Supervised Instance Segmentation
题目:《Guided Distillation for Semi-Supervised Instance Segmentation》,用于半监督实例分割的指导蒸馏,WACV(计算机视觉应用冬季会议,未进入CCF)日期:2023.12.14单位:FAIR, Meta, 格勒诺布尔-阿尔卑斯大学论文地址:https://arxiv.org/abs/2308.02668作者摘要尽管实例分割方法已经有了很大的改进,但主要的范例是依赖于满符号的训练图像,这很难获得。
2024-04-11 17:08:02
1009
原创 《矩阵分析》笔记
TVTα∣α属于VTV={Tα|α属于V}TVTα∣α属于V像子空间是由V中所有元素的像Tα构成的(Tα是α通过线性变换T得到的,α∈V)T−10kerTα∣α∈VTα0T−10kerTα∣α∈VTα0核子空间中的元素α在线性变换T的作用下转换为0例如:投影变换{(x1, x2, x3)}三维空间 T(x1, x2, x3) = (x1, x2, 0)1, x2, 0)},二维空间,维数为23。
2024-01-08 21:06:57
3637
1
原创 Paper Reading: (InPL) 不平衡半监督学习中的分布内伪标记优先
题目:《InPL: Pseudo-labeling the Inliers First for Imbalanced Semi-supervised Learning》,ICLR’23 InPL:不平衡半监督学习中的分布内伪标记优先日期:2023.2.2单位:威斯康星大学麦迪逊分校论文地址:https://openreview.net/forum?GitHub:-作者Zhuoran Yu研究领域:之前是目标检测,今年发了两篇半监督相关的,一个是这篇,一个是人体姿态估计。
2023-12-13 20:10:09
368
原创 Paper Reading: (CCVC) 基于冲突的半监督语义分割跨视图一致性
题目:《Conflict-Based Cross-View Consistency for Semi-Supervised Semantic Segmentation》,CVPR’23, 基于冲突的半监督语义分割跨视图一致性日期:2023.5.2单位:悉尼大学,香港大学,三星研究所论文地址:https://arxiv.org/abs/2303.01276作者Zicheng Wang,找不到Zhen Zhao个人主页:http://zhaozhen.me/Xiaoxia Xing,找不到。
2023-12-13 19:55:22
411
原创 Paper Reading: (U2PL) 基于不可靠伪标签的半监督语义分割
题目:《Semi-Supervised Semantic SegmentationUsingUnreliablePseudo-Labels》,CVPR’22 U2PL: 基于不可靠伪标签的半监督语义分割日期:2022.3.14单位:上海交通大学, 香港中文大学, 商汤科技论文地址:https://arxiv.org/abs/2203.03884项目地址:https://haochen-wang409.github.io/U2PL/
2023-12-13 19:28:55
669
1
原创 Paper Reading: (ACRST) 基于自适应类再平衡自训练的半监督目标检测
题目:《Semi-Supervised Object Detection with Adaptive Class-Rebalancing Self-Training》,AAAI’22, 基于自适应类再平衡自训练的半监督目标检测日期:2021.7.11(v1),2022.6.28(AAAI’22)单位:清华大学论文地址:https://arxiv.org/abs/2107.05031GitHub:-作者。
2023-12-13 15:21:15
377
原创 Paper Reading: (SAA)半监督学习中通过样本自适应增强提高样本利用率
题目:《Enhancing Sample Utilization through Sample Adaptive Augmentation in Semi-Supervised Learning》, 半监督学习中通过样本自适应增强提高样本利用率日期:2023.9.7单位:南京大学,悉尼大学,东南大学论文地址:http://arxiv.org/abs/2309.03598作者第一作者找不到眼熟的第二作者赵振,个人主页:http://zhaozhen.me/其他作者(略)摘要。
2023-11-04 12:56:24
507
原创 Paper Reading: (S3OD)重新思考航空图像半监督目标检测中的尺度不平衡
题目:《Rethinking Scale Imbalance in Semi-supervised Object Detection for Aerial Images》,重新思考航空图像半监督目标检测中的尺度不平衡(已提交IEEE)日期:2023.10.23单位:武汉大学,北京空天地一体化信息技术国家重点实验室论文地址:Rethinking Scale Imbalance in Semi-supervised Object Detection for Aerial ImagesGitHub:作者
2023-11-04 12:07:49
349
原创 Paper Reading: (ShrinkMatc)缩小类空间以提高半监督学习的确定性
题目:《Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning》,ICCV 2023 缩小类空间以提高半监督学习的确定性日期:2023.8.13单位:香港大学、南京大学、上海AI Lab、悉尼大学、东南大学论文地址:https://arxiv.org/abs/2308.06777GitHub:https://github.com/LiheYoung/ShrinkMatchLihe Yang个人主页:https:
2023-11-04 11:45:00
347
原创 Paper Reading:《Consistent-Teacher: 减少半监督目标检测中不一致的伪目标》
商汤、上海AI实验室、新加坡国立大学、北京大学作者研究方向主要是模型架构研究、半监督学习、目标检测共同一作个人主页:https://adamdad.github.io/其他作者摘要在本研究中,我们深入研究了半监督目标检测(SSOD)中伪目标的不一致性。我们的核心观察结果是,振荡的伪目标破坏了精确探测器的训练。它给学生的训练注入了噪音,导致了严重的过拟合问题。因此,我们提出了一个系统的解决方案,称为Consistent Teacher,以减少不一致性。首先,自适应锚分配(ASA)
2023-10-20 00:19:00
1399
原创 MMDet初尝试:以官方文档为例,训练模型
按照官方文档配置环境:https://mmdetection.readthedocs.io/zh_CN/3.x/get_started.html安装conda/Miniconda创建并激活一个 conda 环境安装PyTorch(GPU平台)使用 MIM 安装 MMEngine 和 MMCV安装 MMDetection验证 MMDetection 是否安装正确下载配置文件和模型权重文件运行以下命令进行验证你会在当前文件夹中的文件夹中看到一个新的图像demo.jpg,图像中包含有网络预测的检测框。
2023-09-28 12:54:26
374
原创 Paper Reading: RSPrompter,基于视觉基础模型的遥感实例分割提示学习
题目:《RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model 》,基于视觉基础模型的遥感实例分割提示学习日期:2023.6.28单位:北航、北京数字媒体重点实验室、虚拟现实技术与系统国家重点实验室、上海人工智能实验室论文地址:https://arxiv.org/abs/2306.16269作者:陈科研。
2023-09-15 18:20:37
1407
原创 本地部署体验LISA模型(LISA≈图像分割基础模型SAM+多模态大语言模型LLaVA)
我下载了LISA-13B-llama2-v0-explanatory(别下这个,我当时是因为作者只发布了两个版本,才下的,后面没用上,要下就选择v1的版本,内存大的下13B,小的下7B)解决:“pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple/”之前https://www.lfd.uci.edu/~gohlke/pythonlibs/也可以下载whl,现在点进去是这样的下不了了。
2023-08-31 14:29:54
2357
15
原创 Paper Reading:《LISA: Reasoning Segmentation via Large Language Model》
LISA: Reasoning Segmentation via Large Language Model》基于大型语言模型的推理分割日期:2023.8.1(v1)单位:香港中文大学,思谋科技,微软亚洲研究院论文地址:https://arxiv.org/abs/2308.00692作者:赖昕,香港中文大学三年级博士生,师从贾佳亚教授。主要研究方向是三维点云感知,迁移学习,半监督学习,小样本学习。已发表顶会顶刊论文8篇,其中一作4篇。同等贡献其他作者(Jiaya Jia:贾佳亚)
2023-08-12 23:07:09
2330
4
原创 Paper Reading:《Segment Anything in High Quality》
Segment Anything in High Quality》高质量的分割任何内容日期:2023.6.2单位:苏黎世联邦理工学院,香港科技大学论文地址:https://arxiv.org/abs/2306.01567作者:柯磊个人主页:http://www.kelei.site/与SAM相关的paper提出模型:SAM-PT,一种将稀疏点追踪与 SAM 相结合用于视频分割的方法通过级联注意力提高DETR的通用检测精度。
2023-08-12 22:33:14
414
原创 Paper Reading:《Semantic-SAM: Segment and Recognize Anything at Any Granularity》
Semantic-SAM: Segment and Recognize Anything at Any Granularity(语义-SAM:多粒度、多语义的统一分割模型单位:香港科技大学,微软, IDEA,威斯康星大学麦迪逊分校,香港大学,清华日期:2023.7.10第一作者:李峰本文简述:Semantic-SAM是一个在多个粒度(granularity)上分割(segment)和识别(recognize)物体的通用图像分割模型。和SAM相比,该模型有两个优点:(1) 语义感知,即模型能够给分割出的实体
2023-07-31 22:46:21
606
原创 Paper Reading: 《HIPIE:Hierarchical Open-vocabulary Universal Image Segmentation》
分层的,开放词汇的通用图像分割单位:加州大学伯克利分校,松下人工智能研究;日期:2023.7.3第一作者:王旭东,研究领域:计算机视觉、机器学习。通过消除预定义对象类和粒度的约束,HIPIE为图像分割提供了更灵活、适应性更强的解决方案。HIPIE:v名词解释:Open-vocabulary:核心思想与zero-shot类似,在都是。
2023-07-30 17:28:26
438
原创 Paper Reading:SAM & FastSAM & MobileSAM 的简单介绍
今年4月,Meta AI公开了Segment Anything Model(SAM),分割一切模型论文:2023年4月5日v1发布于arXiv线上体验demo网站地址:https://segment-anything.com/现已收录ICCV2023(影响因子IS:40.60目标。
2023-07-19 23:45:35
871
原创 基于YOLOv8的口罩检测项目
距离上一次发博客都过去一个多月了,期间不是没有在学习,也保持着记笔记的习惯,但由于刚入门ML/DL的领域,能力也一般,现阶段学的很多东西都很基础,很多时间都在看各路大佬们的课、博文或是读论文,笔记里很多内容都是在收集别人的知识产物,整理时也没有很有条理,根本不是能作为博客发布的状态,所以就一直存放在本地了…害,希望接下来能多有自己的产出吧orz。修改文件:/content/YOLOv8/ultralytics/ultralytics/yolo/v8/detect/train.py中model和data。
2023-06-21 20:37:37
1295
2
原创 李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:4/7 Diffusion Model 原理剖析(optional)
4:从平均值(mean)=0,方差(variance)=1的normal distribution中sample出ε,大小与image一致,是一张全是噪音的图片。我们会发现,噪声只由β序列和xt-1所决定(固定的而非可学习的过程),且生成xt-1时只依赖于xt,可以得出在添加噪声的过程中,是一个马尔科夫链过程,进而得出。αT),得到带有噪音的图片(α越大得到的图片带有的噪音占比越大);注意,在得到的式子中只有ε是需要通过神经网络来预测的(其他的参数都是已经定好的或是可以推算出来的)):预测生成的噪音图片;
2023-05-07 17:47:10
1238
原创 生成网络-学习笔记 鲁鹏-北邮-2020/6/2
与GAN相比,产生的图像比较模糊,质量低。但只是混合高斯模型,只能解决有限个的对应关系(即m个),所以我们将P(m)替换为一个分布函数,用函数来对应,就能产生无数组的对应关系。VAE的编码器与自编码器不同,自编码器是直接得到输出z(编码),而VAE的编码器输出是一个概率分布,其中m为分布均值,σ为分布方差。A:解码器只能生成已有的图片,如输入满月与半月的图像,希望生成中间状态的月亮,只是用解码器是无法实现的。2. 训练完后的编码器作为有监督学习的初始特征提取模型(利用少量有标签的数据,训练最终的网络)。
2023-05-03 18:34:32
230
原创 李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:3/24机器如何生成图像
文字输入decoder,用于限制图像生成的范围,Encoder输出一个向量,交给decoder,希望还原回一样的图像,encoder和decoder一起训练,希望生成的图像约相似越好同时要对encoder生成的向量做限制,强制其是normal distribution训练encoder,输入一张图片输出一个向量,并保证这个向量是可逆的(大小与输入图像一致),多个向量组成normal distribution,输入encoder得出生成图像。
2023-05-02 00:02:14
1061
2
原创 李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:3/17 大模型+大资料=神奇结果?
由于过于庞大,结构与一般的transformer有所差异,大模型中包含许多模组,每次执行任务时只调用部分模组(训练所有的参数,但使用时只使用部分参数,为了节省inference的资源)结论:大模型在输出不确定的答案时会不自信(知道自己不知道答案),小模型不太受影响。总所周知,大体量的模型+大量的数据,会得到更好的模型,可是原因是什么呢?横轴:LM输出的下一个字的概率(是模型选择的输出,不一定正确)不同颜色代表不同大小的模型(黄色代表的模型最大),1.6T(PaLM的3倍,GPT3的10倍)
2023-04-29 20:56:12
636
原创 李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:3/10机器如何生成文句
相关论文:Transfer Text-to-text Transformer(T5,超长论文67页),使用的训练集:Colossal Clean Crawled Corpus(C4,一个超大的训练集,大小有7P)3.Least-to-most prompting:先让机器自己将问题进行拆分,再将问题和拆分后的问题一起给机器,让他接龙。2.使用Self-consistency的方法:让机器产生多个答案,选概率高的作为答案。输入D、Q序列,输出s、e(答案在文章中的起始位和终止位,直接截取文章),生成答案A。
2023-04-28 23:19:44
964
3
原创 李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:3/3 机器学习基本概念介绍
机器学习 ≈ 机器自动寻找一个函数f例如:chatGPT:输入:“什么是机器学习”通过函数f,输出:“机”Midjournery:输入:一只可爱的猫,通过函数f,输出:一张猫猫图片Regression(回归)与Classification(分类)Regression:函数的输出是一个数值例如:输入输入今天的PM2.5值、温度、臭氧量等,输出明天的PM2.5值Classification:函数的输出是一个类别(选择题)例如:判断一封邮件是否为垃圾邮件。
2023-04-22 16:46:35
1070
2
原创 李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:前言
课程主页:https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub:https://github.com/Fafa-DL/Lhy_Machine_Learning目录2/24 正确认识chatGPT3/3 机器学习基本概念介绍3/10 机器如何生成文句3/17 【生成式AI】大模型+大资料=神奇结果?3/24机器如何生成图像4/7 Diffusion Model 原理剖析(optional)4/21 基石模型的各种变形4/28 基石模
2023-04-22 16:39:58
1258
原创 李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:2/24 正确认识chatGPT
李宏毅-MACHINE LEARNING 2023 SPRING学习笔记【持续更新!希望吧orz】
2023-04-19 16:08:52
863
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人