NexaAI/nexa-sdk 本地模型服务器部署与API使用指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00822/article/details/148524333

NexaAI/nexa-sdk 本地模型服务器部署与API使用指南

nexa-sdk Nexa SDK is a comprehensive toolkit for supporting GGML and ONNX models. It supports text generation, image generation, vision-language models (VLM), Audio Language Model, auto-speech-recognition (ASR), and text-to-speech (TTS) capabilities. 项目地址: https://gitcode.com/gh_mirrors/ne/nexa-sdk

一、本地服务器快速启动

NexaAI/nexa-sdk 提供了便捷的本地模型服务部署方案，开发者可以通过简单的命令行指令启动各类AI模型服务。这一功能特别适合需要在本地环境快速部署AI能力进行开发测试的场景。

1.1 基础启动命令

使用nexa server命令可以启动本地模型服务，基本语法如下：

nexa server [模型名称或路径] [选项参数]

1.2 关键参数解析

模型来源选项：
- -lp/--local_path：指定本地模型路径
- -hf/--huggingface：从Hugging Face Hub加载模型
- -ms/--modelscope：从ModelScope Hub加载模型
模型类型指定：
- -mt/--model_type：必须配合模型来源选项使用，可选值包括：
  - NLP（自然语言处理）
  - COMPUTER_VISION（计算机视觉）
  - MULTIMODAL（多模态）
  - AUDIO（音频处理）
服务配置：
- --host：服务绑定主机地址
- --port：服务绑定端口号
- --reload：启用代码变更自动重载
- --nctx：设置模型最大上下文长度

1.3 典型使用示例

# 启动Gemma语言模型服务
nexa server gemma

# 启动本地存储的多模态模型
nexa server ../models/llava-v1.6-vicuna-7b/ -lp -mt MULTIMODAL

# 使用ONNX格式的模型
nexa server onnx faster-whisper-large

二、核心API接口详解

2.1 文本生成API

端点：/v1/completions

适用于单轮文本生成场景，如故事创作、内容摘要等。

请求示例：

{
  "prompt": "解释量子计算的基本原理",
  "temperature": 0.7,
  "max_new_tokens": 256
}

2.2 多轮对话API

端点：/v1/chat/completions

支持带历史上下文的对话交互，最新版本已扩展多模态输入能力。

多模态请求示例：

{
  "messages": [
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "描述这张图片"},
        {"type": "image_url", "image_url": {"url": "图片URL"}}
      ]
    }
  ]
}

2.3 函数调用API

端点：/v1/function-calling

实现自然语言到结构化函数调用的转换，适合构建自动化工作流。

典型应用场景：

{
  "messages": [{"role": "user", "content": "查询北京明天的天气"}],
  "tools": [{
    "type": "function",
    "function": {
      "name": "get_weather",
      "parameters": {
        "properties": {
          "location": {"type": "string"},
          "date": {"type": "string"}
        }
      }
    }
  }]
}