Jellyfish: A Large Language Model for Data Preprocessing

最新推荐文章于 2025-12-12 17:54:27 发布

UnknownBody

最新推荐文章于 2025-12-12 17:54:27 发布

阅读量983

点赞数 14

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/135828023

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

Jellyfish是一款开源的大型语言模型，设计用于通用数据预处理任务。基于Llama 2-13B模型，它经过多个DP任务的指令调整，如错误检测、数据插补等。Jellyfish在单个、低价GPU上运行，保证数据安全，同时提供解释器来解释输出决策。通过知识注入增强性能，Jellyfish在实验中展现出与先进方法竞争的实力和对新任务的高可扩展性。

本文是LLM系列文章，针对《Jellyfish: A Large Language Model for Data Preprocessing》的翻译。

摘要

作为数据挖掘管道中的关键步骤，数据预处理（DP）是将原始数据转换为便于处理的干净格式的过程。虽然存在各种DP任务，如错误检测和实体匹配，但大多数当前的DP解决方案仅限于一个或两个特定任务。大型语言模型（LLM）的出现，特别是那些对自然语言提示做出响应的模型，激发了人们对开发适用于广泛DP任务的通用解决方案的兴趣。然而，该领域的现有方法通常依赖于OpenAI的GPT API，这引发了不可避免的数据泄露问题。
在本文中，我们介绍了Jellyfish，一种开源LLM，作为DP的通用任务求解器。Jellyfish建立在Llama 2-13B模型的基础上，利用几个典型DP任务的数据集进行指令调整，包括错误检测、数据插补、模式匹配和实体匹配，并为其他任务提供可推广性。
值得注意的是，Jellyfish可以在具有130亿参数的本地、单个和低价GPU上运行，确保数据安全并实现进一步的调优。它在理解自然语言方面的熟练程度允许用户手动编写DP任务的指令。与许多严重依赖先验知识的现有方法不同，Jellyfish在调整过程中获取领域知识，并在推理过程中集成可选的知识注入。Jellyfish的一个显著特点是它的解释器，它阐明了它的输出决策。
为了构建Jellyfish，我们开发了一系列预调整和DP调整技术。Jellyfish配备了一个实例序列化器和一个知识注入器，前者自动将原始数据转换为模型提示，后者可选地引入特定于任务和数据集的知识，以增强DP性能。我们使用一系列真实数据集对Jellyfish进行的评估显示，与最先进的方法相比，Jellyfish具有竞争力，并且对看不见的任务具有很强的可推广性。Jellyfish的性能可以与GPT系列模型相媲美，与GPT-3.5相比，其解释器提供了增强的推理

了解本专栏