本文是LLM系列文章,针对《Octopus v2: On-device language model for super agent》的翻译。
摘要
语言模型在各种软件应用程序中显示出了有效性,特别是在与自动工作流相关的任务中。这些模型具有调用函数的关键能力,这对创建人工智能代理至关重要。尽管大规模语言模型在云环境中具有很高的性能,但它们往往与隐私和成本问题有关。当前用于函数调用的设备上模型面临延迟和准确性问题。我们的研究提出了一种新方法,使具有20亿个参数的设备上模型在准确性和延迟方面都超过GPT-4,并将上下文长度减少95%。与具有基于RAG的函数调用机制的Llama-7B相比,我们的方法将延迟提高了35倍。这种方法将延迟降低到适合在生产环境中跨各种边缘设备部署的级别,与现实应用程序的性能要求保持一致。
1 引言
2 相关工作
3 方法
4 实验
5 讨论和未来工作
我们目前的训练计划证明,任何特定的功能都可以封装到一个新创造的术语——功能token中,这是一种无缝集成到token生成器和模型中的新型token类型。该模型通过仅两美分的成本效益高的训练过程,促进了人工智能代理的部署,其特点是其显著的低延迟和高准确性