- 博客(9)
- 收藏
- 关注
原创 《QuRating: Selecting High-Quality Data for Training Language Models》——阅读笔记
所以,评分模型的目标就是输出合适的 SB 和 SA,让算出来的 PB>A 和数据集里的一致,训练的时候用的是二元交叉熵。然后,用这些文本对得来的两两比较数据,对一个有 13 亿参数的 Sheared - Llama 模型进行了微调,给这个模型加了四个线性头层,让它能针对四个评判标准预测质量评级。比如说,按照写作风格这一标准筛选的数据,模型的困惑度是最低的,可在上下文学习性能方面,提升却非常有限。这篇论文提出的质量评级(QuRating)方法,致力于在资源受限的情况下,优化语言模型的数据选择。
2025-03-04 15:56:42
639
原创 《Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics》——阅读笔记
我们重新训练模型,使用包含 WinoGrande 中最模棱两可的 50%、33%、25%、17%、10%、5% 和 1% 的实例的子集。有趣的是,只需将十分之一的模棱两可数据替换为易于学习的实例,模型不仅成功学习,而且其 ID 性能超过了随机选择基线。之后发现模棱两可的数据训练的效果最好,仅用三分之一的数据,最模棱两可的数据训练得到了最佳的 OOD 性能,超过了 100% 训练,即使只有三分之一的数据。线性分类器预测为噪声的实例中有 67% 确实是误标签或模棱两可的,而预测为正确标记的实例中只有 13%
2024-12-24 10:26:48
639
原创 A Survey on Evaluation of Multimodal Large Language Models——阅读笔记
MLLMs通常由处理输入文本的大语言模型、编码其他各种模态(如图像、视频)输入的模态编码器以及将文本输入和其他模态输入对齐到一个对齐特征空间的模态投影器。另外,为了评估模型生成文本或图像的能力,广泛采用了如BLEU、ROUGE和METEOR [185], [186] 等指标。特定基准旨在评估MLLMs在特定任务或领域的表现,通常聚焦于需要专门评估的领域,如社会经济、科学、医学任务及其他应用。依我看,MLLM的能力大致分为识别、理解、推理、数学、科学知识,数学和科学知识我觉得可以归为高级的理解和推理。
2024-12-14 23:14:27
640
原创 T2I-Scorer: Quantitative Evaluation on Text-to-Image Generation via Fine-Tuned LMM——阅读笔记
在图5中,我们展示了第一阶段训练中使用的不同数量的T2I-ITD数据对T2I-Scorer-IT准确性变化的影响。相比于图像质量视角,图像-文本对齐视角标志着一个明显更困难的场景:虽然T2I-Scorer能够超越所有现有的基于相似性的T2I度量和基线LMM,但没有任何方法在这一视角上达到超过0.8的SRCC,表明在更准确地评估T2I生成的图像-文本对齐方面仍有很大的改进空间。我们同样收集了两类针对成对视觉输入的问答数据,包括与单个图像相同的是或否的问题,唯一的区别在于比较目标,以及一种独特的哪一张的问题。
2024-12-13 20:50:24
769
原创 MMBench: Is Your Multi-modal Model an All-around Player?——阅读笔记
只记录了我认为这篇文档重要的部分,如果哪里不懂或者有遗漏可以评论区或私聊交流。
2024-12-11 19:40:15
1349
翻译 MULTIMODALQA: COMPLEX QUESTION ANSWERING OVER TEXT, TABLES AND IMAGES——全文详细翻译
当回答复杂问题时,人们可以无缝地结合来自视觉、文本和表格来源的信息。虽然近年来对能够基于多个证据片段进行推理的模型的兴趣有所增加,但对于跨多种模态(multimodal)进行推理的问题回答模型的研究相对较少。在本文中,我们提出了MULTIMODALQA(MMQA):一个需要联合从文本、表格和图像上进行推理的具有挑战性的问题回答数据集。我们使用一种新的框架来大规模生成复杂的多模态问题,该框架从维基百科中收集表格,并通过出现在每个表格中的实体附加图像和文本段落。然后,我们定义了一种形式语言,使我们能够将可以从单
2024-12-07 20:59:44
121
原创 Evaluating Text-to-Image Synthesis: Survey and Taxonomy of Image Quality Metrics——论文精读
近年来,通过语言和视觉基础模型的结合,文本到图像生成技术取得了显著进展,推动了相关工具的快速发展和对这一领域的关注。在进行文本到图像生成时,一个核心目标是确保文本和图像内容之间的对齐。因此,目前已经存在许多旨在模拟人类判断的评估指标。然而,由于文本到图像生成的评估非常复杂,通常难以明确选择合适的评估指标。
2024-12-06 16:43:39
1653
原创 A Survey of Multimodal Large Language Model from A Data-centric Perspective——论文精读
近年来,大语言模型(LLMs)和多模态大语言模型(MLLMs)快速发展。大多数现有的多模态大语言模型集中于通过修改模型架构来探索利用多模态信息。但数据同样对多模态大语言模型的成功起着重要作用。然而,关于多模态大语言模型的数据策划与利用的全面研究仍然匮乏,因此,本研究旨在以数据中心视角提供多模态大语言模型的全面理解。本文的关注点在于如何利用数据模态的异质性、增强数据结构、增加数据量并提高数据质量,以增强多模态大语言模型的能力。三个关键问题:如何收集、选择和管理多模态大语言模型的数据?
2024-11-27 15:34:01
648
原创 人工智能实验-利用A和A*算法编写程序实现8数码和15数码问题
一、实验目的Ø熟悉掌握启发式搜索算法A*及其可采纳性 二、实验内容编写程序实现8数码和15数码问题,采用至少两种估价函数分析估价函数求解问题时候的效率差别,分析估价函数对搜索算法的影响三、解题思路3.1解题思路 1)首先定义节点的数据结构,包含路径代价f,当前节点状态即各个格子中的值用p[N][N]表示(N为自己定义的值,若为八数码问题,则N为3,若为十五数码问题,则N为4),其父亲节点father,深度d(方便计算路径代价),还有四个方向的变
2022-10-16 14:54:57
2441
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人