
计算机视觉
文章平均质量分 91
Funny_AI_LAB
#算法工程师 #cv算法 #酷站分享 #高效工具 #AIGC
AI干货,公众号『有趣的AI』
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025CVPR最佳论文系列
IEEE计算机学会与计算机视觉基金会公布了2025年CVPR大会获奖名单。最佳论文授予牛津大学和Meta AI的VGGT模型,该Transformer网络能高效估算3D场景属性;最佳学生论文为多伦多大学等机构的神经逆向渲染系统。另有5篇论文获荣誉奖,涵盖动态视频处理、导航世界模型、开放视觉语言模型等前沿研究。AI艺术奖项表彰了3个跨界项目,包括神经网络潜在空间探索、微生物分解与AI的类比等创新作品。这些成果展示了计算机视觉领域在技术创新与艺术应用上的突破。原创 2025-06-15 19:42:26 · 1177 阅读 · 0 评论 -
多类别异常检测新SOTA-MVMCAD
这篇论文提出了一种用于多视角多类别异常检测 (MVMCAD) 的模型,旨在解决现有模型在多视角场景下建模不同视角之间关系和互补信息不足的问题。该模型通过整合来自多个视角的信息来准确识别异常。原创 2025-05-19 20:03:24 · 1000 阅读 · 0 评论 -
Google Cloud Next 2025大会发布多项重大产品
Google Cloud Next 2025大会于2025 年 4 月 9- 11 日在拉斯维加斯曼德勒海湾会议中心举行。原创 2025-04-11 18:15:37 · 1152 阅读 · 0 评论 -
Mistral OCR:目前OCR模型SOTA
MistralOCR支持多种语言,评分全面超过Gemini 2.0 Flash,支持在Le Chat使用和API调用。原创 2025-03-09 09:28:13 · 1204 阅读 · 0 评论 -
OpenAI重磅消息发布12天直播 –实时更新day7
OpenAI提前开启了假期,推出了为期 12 天的活动,名为“OpenAI 12 天”。在接下来的一周左右的每一天,OpenAI 都将发布现有产品的新更新以及新软件,包括备受期待的 Sora AI 视频生成器。OpenAI 首席执行官 Sam Altman 表示,每天都会进行直播,并发布新内容或演示,“包括一些大型活动和一些圣诞礼物”。该公司通过隆重发布 o1 推理模型以及ChatGPT的新业务层(称为 ChatGPT Pro)拉开了庆祝活动的序幕。原创 2024-12-12 01:11:30 · 949 阅读 · 0 评论 -
超越DFINE最新目标检测SOTA模型DEIM
DEIM 通过采用密集的一对一(Dense O2O)匹配策略和提出一种新颖的损失函数 Matchability-Aware Loss (MAL),来增加每张图片中的正样本数量,优化不同质量水平的匹配效果。在 COCO 数据集上的广泛实验验证了 DEIM 的有效性。与 RT-DETR 和 D-FINE 集成时,DEIM 能显著提升性能并减少50%的训练时间。搭配 RT-DETRv2 使用时,DEIM 在 NVIDIA 4090 GPU 上仅用一天训练就达到了 53.2% AP。原创 2024-12-09 23:34:27 · 2396 阅读 · 0 评论 -
Diffusion异常检测相关论文及代码整理
扩散模型(Diffusion Models)是一种生成模型,广泛用于图像生成、文本生成等领域。在异常检测任务中,扩散模型也可以被用来识别和检测异常数据点。该文章对近几年利用扩散模型进行异常检测的文章进行了整理原创 2024-11-26 23:46:55 · 2530 阅读 · 0 评论 -
重磅!首个目标检测大模型(识别万物):DINO-X
IDEA 开发了一个通用物体提示来支持无提示的开放世界检测,从而无需用户提供任何提示即可检测图像中的任何内容。原创 2024-11-25 08:30:00 · 4334 阅读 · 0 评论 -
手把手教你使用 Nvidia的NIM 微服务进行结构化文本提取
此示例展示了如何使用 Vision NIM(VLM、Florence、OCDRNet)和 LLM 创建用于从图像中提取结构化文本。原创 2024-11-03 23:47:57 · 1077 阅读 · 0 评论 -
AI图像相似性搜索对比:VIT, CLIP, DINO-v2, BLIP-2
使用不同的 AI 模型,例如 ViT、CLIP、BLIP、EfficientNet、DINO-v2 和 VGG16比较图像并查看它们的相似之处。原创 2024-11-03 22:37:05 · 3766 阅读 · 1 评论 -
YOLO框架最新综述从YOLOV1-YOLOV11(2024年10月23)
这篇文章《YOLO框架:目标检测中的演变、应用与基准的全面回顾》是一篇关于YOLO(You Only Look Once)框架的综合性回顾。原创 2024-10-29 00:34:10 · 20244 阅读 · 0 评论 -
目标检测最新SOTA模型D-FINE
2024年10月18号,中科大推出了 D-FINE,这是一款功能强大的实时物体检测器,通过重新定义 DETR 模型中的边界框回归任务实现了出色的定位精度。原创 2024-10-18 23:10:04 · 4943 阅读 · 0 评论 -
多模态人像编辑:PortraitGen将2D肖像视频提升到4D 高斯场
PortraitGen将2D肖像视频提升到4D 高斯场。 只需30分钟即可实现多模态人像编辑。 编辑后的 3D 肖像也可以以100 FPS 的速度渲染。原创 2024-09-29 16:12:33 · 1548 阅读 · 0 评论 -
新一代图像生成E2E FT:深度图微调突破
本文的核心贡献在于提出了一种改进的微调方法,该方法不仅可以修复现有模型的推理缺陷,还能简化训练流程,提高模型在单目深度和法线估计任务上的效率和准确性。原创 2024-09-23 17:05:44 · 1255 阅读 · 0 评论 -
Freepik发布号称目前最强AI图像生成器Mystic
Freepik 于2024年8月27日正式推出了新的人工智能图像模型 “Mystic”,并号称是目前最强的AI图像生成器,本文从介绍Mystic开始,剖析其技术细节,功能特色,收费价格,并与当前市场上领先的 Midjourney V6.1 进行了对比,最后总结生成器的主要特点。原创 2024-09-01 15:40:14 · 1859 阅读 · 0 评论 -
图像生成新突破:Lumina-mGPT的灵活高分辨率解码技术
Lumina-mGPT,一款先进的多模态自回归模型,通过创新的预训练和微调策略,实现了从文本描述到高分辨率、逼真图像的灵活生成,并具备执行多样化视觉和语言任务的全能潜力。原创 2024-08-16 09:50:58 · 1241 阅读 · 0 评论 -
BiRefNet:高分辨率图像分割的利器
BiRefNet:突破分辨率限制,实现高精度图像分割!利用双边参考和逐步细化技术,BiRefNet 能够生成精细且准确的分割结果,并应用于建筑检测、目标提取等场景,为图像分割领域带来革命性突破!原创 2024-08-11 23:36:41 · 3294 阅读 · 0 评论 -
从财报看AI风暴:苹果、微软、特斯拉、Meta和英伟达如何在Q2展示技术雄心
在Q2财报中,苹果、微软、特斯拉、Meta和英伟达展现了各自独特的AI战略和成果。从苹果的创新应用到英伟达的技术突破,这些科技巨头如何在人工智能浪潮中竞争与合作,塑造未来科技格局?快来一探究竟!原创 2024-08-09 01:02:53 · 1735 阅读 · 0 评论 -
分析400+人工智能公司,得出这样的结论
带着寻找以下问题的答案:哪些行业正在见证最多的人工智能创新?哪些类型的人工智能应用正在吸引投资?成功的人工智能创始人有着怎样的背景?原创 2024-08-07 23:11:13 · 1449 阅读 · 0 评论 -
Meta最新SAM2模型开源直接封神
继图像元分割模型(SAM) 取得成功之后,meta发布了SAM 2,这是一个用于在图像和视频中实时提示对象分割的统一模型,可实现最先进的性能。原创 2024-08-03 00:34:17 · 2886 阅读 · 0 评论 -
手把手教你多种方式体验Qwen2最强开源大模型
这篇文章主要介绍如何多方式体验Qwen2阿里云最强开源大模型原创 2024-07-03 23:18:32 · 8916 阅读 · 0 评论 -
文档版面分析数据集整理
关于文档版面分析相关的数据集进行整理汇总原创 2024-03-11 17:23:23 · 3973 阅读 · 0 评论 -
layoutlmv3训练CDLA数据集
利用layoutlmv3模型训练CDLA文档版面分析原创 2024-03-11 16:52:17 · 2643 阅读 · 1 评论 -
yolov8训练CDLA数据文版版面分析
采用yolov8对pdf文档版面进行分析原创 2024-03-07 19:15:18 · 2788 阅读 · 5 评论 -
计算机视觉一些面试基础整理(持续更新)
一些计算机视觉的基础概念,实现代码整理原创 2023-12-19 17:22:32 · 824 阅读 · 0 评论 -
快速删掉文件夹里重复或者相似的图片
如何对相似图片或者重复图片进行清理,主要分软件和python代码实现原创 2023-12-11 13:03:51 · 4250 阅读 · 0 评论 -
更新一些深度学习、机器学习、算法、以及面试相关的书籍&文章
整理深度学习,机器学习,算法,面试相关的电子书原创 2023-09-19 10:51:25 · 284 阅读 · 0 评论 -
3090单卡+yoloV8+训练手势识别(手把手教学)
超详细记录3090单卡利用yolov8训练手势识别原创 2023-06-15 18:23:01 · 7134 阅读 · 3 评论 -
好用的标注工具和标注数据处理代码
一. 标注工具1.Labelme(官网链接)windows环境:首先安装Anaconda,Python3+版本。安装成功后,打开Anaconda Prompt,然后依次输入以下命令。# python3conda create --name=labelme python=3.6 #创建虚拟环境conda activate labelme #激活虚拟环境pip install pyqt5 # pyqt5 can be installed via pip on python3pip insta原创 2021-11-18 11:26:31 · 2987 阅读 · 1 评论 -
Windows10+pycharm+cuda11.0 yoloV4训练自己的数据集
yolov4的发布引起了不少的关注,但由于darknet是大佬c语言写的,并且windows环境下的编译确实很麻烦,所以找了一个不用编译的yolov4开源代码基于pytorch环境。参考:https://blog.youkuaiyun.com/myr503270510/article/details/109642901本人的项目环境是:Windows10+pycharm+cuda11.0数据格式:coco数据集格式(数据标注利用百度飞桨)下载yolov4_pytorch源码:https://gith原创 2021-04-15 11:57:23 · 3500 阅读 · 10 评论 -
敏感词过滤及反垃圾文本的相关知识(欢迎收藏)
需求要求:社交平台文本敏感词过滤先介绍一下敏感词词库:1.funNLP敏感词库:2.chat-censorship与聊天客户端审查调查相关的数据,此存储库包含关键字黑名单以及其他内容的列表,例如用于触发在中国使用的应用程序中的审查制度的URL或图像(应用包括:微博,微信,Line,skype)3.网上整理的敏感词库及Java实现的代码链接:https://pan.baidu.com/s/16HjeZUgmX-jRzutvfULXwA添加链接描述提取码:9hme如果失效请留言,谢谢。敏原创 2020-05-12 09:04:23 · 4743 阅读 · 2 评论 -
对马赛克说“NO”
马赛克技术:是一种利用与镶嵌画装饰艺术(Mosaic)类似原理的影像处理方法。此方法将影像特定区域的色阶细节劣化并造成色块打乱的效果,目的是为了使另一个人无法辨认,同时用在影像处理时有时也称为码赛克、打码。由于常用于处理敏感影像,马赛克常常也影射了敏感影像本身,形成一种暗喻。去马赛克技术:去马赛克(demosaicing)算法是一种数字图像处理,用于根据从彩色滤波器阵列(CFA)覆盖的图像传感器输出的不完整颜色样本重建全色图像。 它也被称为CFA插值或颜色重建。图像马赛克和毛玻璃简单实现:https:原创 2020-12-14 18:12:14 · 380 阅读 · 0 评论 -
图像鉴黄的数据集及相关算法汇总
前方高能预警,非战斗人士请火速撤离……数据集1:https://github.com/EBazarov/nsfw_data_source_urls/tree/master/raw_data在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 URL,以下是关于该数据集的一些统计信息:159个 不同的类别158.9331 万个 URL下载并清洗后大约有 500GB,或者说有 130 万张 NSFW 图像数据集2:https://github.com/alex00原创 2020-05-09 10:35:49 · 4558 阅读 · 0 评论