- 博客(8)
- 收藏
- 关注
原创 论文阅读7 MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark
本文论文标题翻译为《现有的多模态数学基准测试没有充分整合视觉和文本信息,导致评估不够全面。本文提出了一个新的基准测试MathScape,它通过使用真实世界的数学问题图像和正确答案的组合来评估MLLMs。MathScape旨在通过分类层次化方法评估基于照片的数学问题场景,评估MLLMs的理论理解和应用能力。
2024-09-09 21:02:19
912
1
原创 论文阅读6 EHR的图形和文本多模态表示学习及动量蒸馏
论文原标题为《》,本文提出了针对电子健康记录(Electronic Health Records, EHR)数据的多模态表示学习问题。EHR数据体量庞大且内在复杂,从EHR中提取有效信息面临挑战;现有研究通常忽略了医疗编码(图形结构)和非结构化文本之间的固有差异和不一致性,限制了模型能够捕捉的信息丰富性。本文提出一种名为。
2024-08-22 21:27:58
806
1
原创 论文阅读5 LISA: Reasoning Segmentation via Large Language Model
本文的论文标题翻译为《现有感知系统在执行视觉识别任务时,无法主动推理和理解基于隐含指令的用户意图。本文提出新的任务定义,。这个任务要求模型能够根据复杂的、隐含的文本查询生成二进制分割掩码。本文提出LISA模型,它继承了多模态大型语言模型(LLMs)的语言生成能力,同时也具备生成分割掩码的能力,使其能够能够处理涉及复杂推理和世界知识的情况。
2024-08-15 15:04:43
2236
1
原创 论文阅读4 OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection
本论文翻译为《》,提出了在激光雷达(LiDAR)数据上进行开放词汇表(open-vocabulary)物体检测的问题。传统基于激光雷达的物体检测研究主要集中在封闭集(closed-set)场景中,在现实生活中的应用存在不足。如下图所示:当查询新的类别“摩托车”(“motorcycle”)时,模型错误地检测了已知的物体“汽车”(用红色表示),存在过拟合问题。OpenSight利用2D-3D几何先验来进行通用物体的初步识别和定位,然后对检测到的物体进行更具体的语义解释。
2024-08-09 19:27:58
1056
1
原创 论文阅读3 BiEquiFormer: Bi-Equivariant Representations for Global Point Cloud Registration
本论文标题翻译为《BiEquiFormer:全局点云配准的双等变表示本文提出的问题是全局点云配准(PCR)问题,即在不考虑点云扫描初始姿态的情况下,找到点云之间的最优对齐方式。传统优化方法在处理大规模点云数据时面临计算上的限制,且现有方法在点云初始姿态随机放置时性能显著下降。文章提出了利用等变深度学习解决PCR问题的BiEquiformer架构。此架构为可扩展的双等变流水线,对输入点云的独立变换具有等变性,通过设计表达性强的双等变层,融合来自两个点云的信息。
2024-07-30 22:42:34
2026
原创 论文阅读2 CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora
本文标题翻译为《CFIR:针对大型语料库的快速有效的长文本到图像检索文本到图像检索的目的是基于文本查询到相关的图像(数字图书馆、电子商务等),现有多模态大型语言模型(MLLMs)计算成本高,并且有注入式嵌入导致的效率问题。本文主要介绍了一种名为CFIR(Coarse-to-Fine Index-shared Retrieval,粗到细索引共享检索)的框架,旨在减少长文档中的歧义,提高大规模长文本到图像索引的效率和结果。
2024-07-22 19:52:38
1197
1
原创 论文阅读1 ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
本文标题翻译为**《ViLT:无需卷积或区域监督的视觉与语言变换器》**。文中介绍了一种新型的视觉与语言预训练(Vision-and-Language Pre-training, VLP)模型,称为Vision-and-Language Transformer(ViLT)。ViLT模型的主要特点是它不依赖于传统的卷积神经网络(CNN)架构或区域监督(如目标检测)来提取图像特征,而是采用一种更为简化的方法来处理视觉输入,使得模型在效率和速度上得到显著提升,同时保持了与之前VLP模型相当或更好的下游任务性能。
2024-07-19 00:53:15
1094
2
原创 pytorch的学习——迁移学习,模型微调
1、概念1、迁移学习:把已经训练好的模型参数,迁移到新的模型,来帮助新的模型训练。步骤:网络→大数据集→模型→模型微调→新数据集→新模型2、冻结:被冻结的层可以前向传播,也可以反向传播,只是自己这一层的参数不更新,其他未冻结层的参数正常更新3、正则化:这里使用BatchNorm,对该层每个节点的这m个输出进行归一化再输出.2、代码肺部感染识别,使用resnet50模型def get_model(): model_pre = models.resnet50(pretrained=True
2022-04-06 22:52:06
3468
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅