林之秋 投稿
量子位 | 公众号 QbitAI
视觉语言模型(如 GPT-4o、DALL-E 3)通常拥有数十亿参数,且模型权重不公开,使得传统的白盒优化方法(如反向传播)难以实施。
那么,有没有更轻松的优化方法呢?
就在最近,卡内基梅隆大学(CMU)的研究团队对于这个问题提出了一种创新的“黑盒优化”策略——
通过大语言模型自动调整自然语言提示词,使视觉语言模型在文生图、视觉识别等多个下游任务中获得更好的表现。
这一方法不仅无需触及模型内部参数,还大幅提升了优化的灵活性与速度,让用户即使没有技术背景也能轻松提升模型性能。
该研究已被 CVPR 2024 接收。

如何做到的?
大多数视觉语言模型(如 DALL-E 3、GPT-4o 等)并未公开模型权重或特征嵌入,导致传统依赖反向传播的优化方式不再适用。
不过,这些模型通常向用户开放了自然语言接口,使得通过优化提示词来提升模型表现成为可能。
然而,传统的提示词工程严重依赖工程师的经验和先验知识。
例如,为提升 CLIP 模型的视觉识别效果,OpenAI 花费了一年时间收集了几十种有效的提示词模板(如 “A good photo of a [class]”)。
同样,在使用DALL-E 3和Stable Diffusion等文生图模型时,用户往往也需掌握大量提示词技巧才能生成满意的结果。
那么,有没有替代人类提示词工程师的方法?
有的 CMU 团队提出了一种新策略:用 ChatGPT 等大语言模型自动优化提示词。

最低0.47元/天 解锁文章
12

被折叠的 条评论
为什么被折叠?



