LaViDa项目中的FIM训练机制解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_07796/article/details/148886008

LaViDa项目中的FIM训练机制解析

LaViDa Official Implementation of LaViDa: :A Large Diffusion Language Model for Multimodal Understanding 项目地址: https://gitcode.com/gh_mirrors/la/LaViDa

概述

在LaViDa项目的多模态大模型训练过程中，FIM(Fill-in-the-Middle)是一种重要的文本增强技术。该技术通过在文本中随机插入特殊标记，使模型能够学习处理不完整或部分缺失的文本输入，从而提升模型对变长文本补全的能力。

FIM训练的核心思想

FIM训练的核心在于模拟真实场景中文本补全的需求。在LaViDa项目中，研究人员发现直接使用固定长度的掩码标记(如[M][M][M][M])可能无法很好地适应实际应用中变长补全的需求。例如，句子"There is a [M][M][M][M] in the image"可能需要补全为"dog"或"traffic light"等不同长度的词汇。

为了解决这个问题，LaViDa团队开发了FIM训练机制，通过在训练数据中随机插入不同长度的特殊标记序列，使模型能够灵活处理各种长度的文本补全任务。

技术实现细节

LaViDa项目使用两种特殊标记来实现FIM训练：

INFILL_TOKEN(<|reserved_token_1|>，ID为126085)：表示需要补全的位置
FILL_TOKEN(<|reserved_token_2|>，ID为126086)：用于构建变长补全标记

FIM训练的关键算法步骤如下：

随机确定在文本中插入补全标记的位置数量n(1到N之间)
从文本中选择n个插入位置(确保不在文本开头)
在每个选定的位置后插入特殊标记序列
每个插入序列包含随机数量(0到K)的FILL_TOKEN，后跟一个INFILL_TOKEN

实现示例

以下是一个简化的Python实现示例，展示了如何在文本中插入FIM标记：

import numpy as np

INFILL_TOKEN = '<|reserved_token_1|>' # 126085
FILL_TOKEN = '<|reserved_token_2|>' # 126086

def insert_infill_substrings(s, N=4, K=5):
    words = s.split()
    n = np.random.randint(1, N + 1)  # 随机确定插入次数

    if len(words) < 2 or n == 0:
        return s

    insert_positions = sorted(np.random.choice(
        range(1, len(words)), size=min(n, len(words) - 1), replace=False
    ))

    result = []
    for i, word in enumerate(words):
        result.append(word)
        if i + 1 in insert_positions:
            k = np.random.randint(0, K + 1)
            if k > 0:
                tokens = ''.join([FILL_TOKEN] * k + [INFILL_TOKEN])
                result.append(tokens)
            else:
                result.append(INFILL_TOKEN)

    return ' '.join(result)