从本地对话到智能服务接口：OpenELM-3B-Instruct的FastAPI封装终极指南-优快云博客

从本地对话到智能服务接口：OpenELM-3B-Instruct的FastAPI封装终极指南

【免费下载链接】OpenELM-3B-Instruct 项目地址: https://ai.gitcode.com/mirrors/apple/OpenELM-3B-Instruct

引言：告别本地运行的痛点

你是否还在为本地部署大语言模型（LLM）而烦恼？每次启动都需要等待模型加载，占用大量系统资源，而且无法便捷地与其他应用程序集成？现在，这些问题都将成为过去。本文将带你一步步将Apple开源的OpenELM-3B-Instruct模型封装成高效的API服务，让你轻松实现从本地对话到智能服务接口的跨越。

读完本文，你将获得：

完整的OpenELM-3B-Instruct模型API化方案
高性能推理服务的优化技巧
生产级API服务的部署与监控方法
实用的客户端调用示例

OpenELM-3B-Instruct模型简介

OpenELM（Open Efficient Language Models）是Apple开源的高效语言模型系列，采用层-wise缩放策略，在每个Transformer层内高效分配参数，从而提高准确性。OpenELM-3B-Instruct是其中的30亿参数版本，经过指令微调，在多种基准测试中表现优异。

模型性能概览

评估基准	得分	对比模型
ARC-c	39.42	优于同尺寸模型平均水平12%
HellaSwag	76.36	优于同尺寸模型平均水平8%
TruthfulQA	38.76	优于同尺寸模型平均水平5%
平均得分	69.15	达到3B参数模型顶级水平

模型架构特点

OpenELM-3B-Instruct采用了以下关键技术：

36层Transformer结构，模型维度3072
采用Group Query Attention (GQA)机制
层-wise参数缩放策略
支持RoPE位置编码
部分层共享输入输出权重

mermaid

环境准备与依赖安装

系统要求

Python 3.8+
CUDA 11.7+ (推荐使用GPU加速)
至少10GB显存
20GB可用磁盘空间

安装步骤

克隆项目仓库

git clone https://gitcode.com/mirrors/apple/OpenELM-3B-Instruct
cd OpenELM-3B-Instruct

创建并激活虚拟环境

python -m venv venv
source venv/bin/activate  # Linux/Mac
# venv\Scripts\activate  # Windows

安装依赖包

pip install -r requirements.txt
pip install fastapi uvicorn pydantic transformers torch accelerate

安装额外性能优化库

pip install sentencepiece ninja bitsandbytes

FastAPI服务封装实现

项目结构设计

OpenELM-3B-Instruct/
├── app/
│   ├── __init__.py
│   ├── main.py          # FastAPI应用入口
│   ├── model.py         # 模型加载与推理
│   ├── schemas.py       # 请求响应模型
│   └── utils.py         # 工具函数
├── config.json          # 配置文件
├── requirements.txt     # 依赖列表
└── README.md            # 项目说明

1. 定义请求响应模型 (schemas.py)

from pydantic import BaseModel, Field
from typing import List, Optional, Dict, Any

class GenerationRequest(BaseModel):
    prompt: str = Field(..., description="输入提示文本")
    max_length: int = Field(256, ge=1, le=2048, description="生成文本最大长度")
    temperature: float = Field(0.7, ge=0.0, le=2.0, description="温度参数")
    top_p: float = Field(0.9, ge=0.0, le=1.0, description="Top-p采样参数")
    repetition_penalty: float = Field(1.0, ge=0.9, le=2.0, description="重复惩罚参数")
    stream: bool = Field(False, description="是否流式输出")

class GenerationResponse(BaseModel):
    generated_text: str = Field(..., description="生成的文本")
    prompt: str = Field(..., description="输入的提示文本")
    generation_time: float = Field(..., description="生成耗时(秒)")
    token_count: int = Field(..., description="生成的token数量")

class HealthCheckResponse(BaseModel):
    status: str = Field(..., description="服务状态")
    model_loaded: bool = Field(..., description="模型是否加载成功")
    uptime: float = Field(..., description="服务运行时间(秒)")
    memory_usage: Dict[str, Any] = Field(..., description="内存使用情况")

2. 模型加载与推理 (model.py)

import time
import torch
import logging
from typing import Dict, Any, Optional, List
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

class OpenELMModel:
    def __init__(self, model_name_or_path: str = "./", device: Optional[str] = None):
        self.model_name_or_path = model_name_or_path
        self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
        self.tokenizer = None
        self.model = None
        self.loaded = False
        self.load_time = 0.0

    def load(self) -> bool:
        """加载模型和分词器"""
        start_time = time.time()
        try:
            logger.info(f"Loading model from {self.model_name_or_path} to {self.device}")
            
            # 加载分词器
            self.tokenizer = AutoTokenizer.from_pretrained(
                self.model_name_or_path,
                trust_remote_code=True
            )
            
            # 加载模型，使用4-bit量化以节省显存
            self.model = AutoModelForCausalLM.from_pretrained(
                self.model_name_or_path,
                trust_remote_code=True,
                device_map=self.device,
                load_in_4bit=True,
                bnb_4bit_compute_dtype=torch.float16
            )
            
            # 模型设为评估模式
            self.model.eval()
            
            self.load_time = time.time() - start_time
            self.loaded = True
            logger.info(f"Model loaded successfully in {self.load_time:.2f} seconds")
            return True
        except Exception as e:
            logger.error(f"Failed to load model: {str(e)}")
            self.loaded = False
            return False

    def generate(self, prompt: str, **kwargs) -> Dict[str, Any]:
        """生成文本"""
        if not self.loaded:
            raise RuntimeError("Model not loaded. Call load() first.")

        start_time = time.time()
        
        # 构建生成配置
        generation_config = GenerationConfig(
            max_length=kwargs.get("max_length", 256),
            temperature=kwargs.get("temperature", 0.7),
            top_p=kwargs.get("top_p", 0.9),
            repetition_penalty=kwargs.get("repetition_penalty", 1.0),
            pad_token_id=self.tokenizer.pad_token_id,
            eos_token_id=self.tokenizer.eos_token_id,
        )
        
        # 编码输入
        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.device)
        
        # 生成文本
        with torch.no_grad():
            outputs = self.model.generate(
                **inputs,
                generation_config=generation_config
            )
        
        # 解码输出
        generated_text = self.tokenizer.decode(
            outputs[0],
            skip_special_tokens=True
        )
        
        # 计算生成的token数量
        input_tokens = len(inputs["input_ids"][0])
        output_tokens = len(outputs[0])
        generated_tokens = output_tokens - input_tokens
        
        # 计算耗时
        generation_time = time.time() - start_time
        
        return {
            "generated_text": generated_text,
            "prompt": prompt,
            "generation_time": generation_time,
            "token_count": generated_tokens,
            "throughput": generated_tokens / generation_time
        }

    def stream_generate(self, prompt: str, **kwargs) -> List[Dict[str, Any]]:
        """流式生成文本"""
        if not self.loaded:
            raise RuntimeError("Model not loaded. Call load() first.")

        # 构建生成配置
        generation_config = GenerationConfig(
            max_length=kwargs.get("max_length", 256),
            temperature=kwargs.get("temperature", 0.7),
            top_p=kwargs.get("top_p", 0.9),
            repetition_penalty=kwargs.get("repetition_penalty", 1.0),
            pad_token_id=self.tokenizer.pad_token_id,
            eos_token_id=self.tokenizer.eos_token_id,
            do_sample=True,
        )
        
        # 编码输入
        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.device)
        input_length = inputs["input_ids"].shape[1]
        
        # 流式生成
        start_time = time.time()
        prev_text = prompt
        chunks = []
        
        with torch.no_grad():
            for output in self.model.generate(
                **inputs,
                generation_config=generation_config,
                streamer=TextStreamer(self.tokenizer, skip_prompt=True),
                return_dict_in_generate=True,
                output_scores=True
            ):
                # 处理流式输出
                current_output = self.tokenizer.decode(
                    output["sequences"][0][input_length:],
                    skip_special_tokens=True
                )
                
                # 提取新增文本
                new_text = current_output[len(prev_text):]
                prev_text = current_output
                
                if new_text:
                    chunks.append({
                        "text": new_text,
                        "timestamp": time.time() - start_time
                    })
        
        return chunks

# 全局模型实例
model_instance = OpenELMModel()

3. FastAPI应用主程序 (main.py)

import time
import psutil
import logging
from fastapi import FastAPI, HTTPException, BackgroundTasks
from fastapi.middleware.cors import CORSMiddleware
from pydantic import BaseModel
from typing import Dict, Any, Optional

from app.schemas import GenerationRequest, GenerationResponse, HealthCheckResponse
from app.model import model_instance
from app.utils import format_memory_usage

# 初始化FastAPI应用
app = FastAPI(
    title="OpenELM-3B-Instruct API",
    description="Apple OpenELM-3B-Instruct模型的FastAPI封装",
    version="1.0.0"
)

# 允许跨域请求
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],  # 在生产环境中应指定具体域名
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

# 应用启动时间
start_time = time.time()

# 后台加载模型
@app.on_event("startup")
async def startup_event():
    """应用启动时加载模型"""
    # 在后台线程加载模型，避免阻塞应用启动
    import threading
    thread = threading.Thread(target=model_instance.load)
    thread.start()

# 健康检查接口
@app.get("/health", response_model=HealthCheckResponse)
async def health_check() -> Dict[str, Any]:
    """检查服务健康状态"""
    return {
        "status": "healthy",
        "model_loaded": model_instance.loaded,
        "uptime": time.time() - start_time,
        "memory_usage": format_memory_usage(psutil.virtual_memory())
    }

# 文本生成接口
@app.post("/generate", response_model=GenerationResponse)
async def generate_text(request: GenerationRequest) -> Dict[str, Any]:
    """生成文本响应"""
    if not model_instance.loaded:
        raise HTTPException(status_code=503, detail="Model is still loading. Please try again later.")

    try:
        result = model_instance.generate(
            prompt=request.prompt,
            max_length=request.max_length,
            temperature=request.temperature,
            top_p=request.top_p,
            repetition_penalty=request.repetition_penalty
        )
        return result
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"Generation failed: {str(e)}")

# 流式生成接口
@app.post("/stream-generate")
async def stream_generate_text(request: GenerationRequest):
    """流式生成文本响应"""
    if not model_instance.loaded:
        raise HTTPException(status_code=503, detail="Model is still loading. Please try again later.")

    try:
        from fastapi.responses import StreamingResponse
        import asyncio

        async def generate_stream():
            loop = asyncio.get_event_loop()
            # 在单独的线程中运行生成函数，避免阻塞事件循环
            result = await loop.run_in_executor(
                None,
                model_instance.stream_generate,
                request.prompt,
                request.max_length,
                request.temperature,
                request.top_p,
                request.repetition_penalty
            )
            for chunk in result:
                yield f"data: {chunk}\n\n"
                await asyncio.sleep(0.01)
            yield "data: [DONE]\n\n"

        return StreamingResponse(generate_stream(), media_type="text/event-stream")
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"Stream generation failed: {str(e)}")

# 模型信息接口
@app.get("/model-info")
async def get_model_info() -> Dict[str, Any]:
    """获取模型信息"""
    if not model_instance.loaded:
        raise HTTPException(status_code=503, detail="Model is still loading. Please try again later.")

    return {
        "model_name": "OpenELM-3B-Instruct",
        "model_size": "3B parameters",
        "device": model_instance.device,
        "load_time": model_instance.load_time,
        "tokenizer_type": str(type(model_instance.tokenizer)),
        "max_context_length": 2048
    }

4. 工具函数 (utils.py)

import psutil
import torch
from typing import Dict, Any

def format_memory_usage(virtual_memory: psutil.virtual_memory) -> Dict[str, Any]:
    """格式化内存使用信息"""
    return {
        "total": f"{virtual_memory.total / (1024 ** 3):.2f} GB",
        "available": f"{virtual_memory.percent}%"
    }

def get_gpu_memory_usage() -> Dict[str, Any]:
    """获取GPU内存使用情况"""
    if not torch.cuda.is_available():
        return {"error": "No CUDA device available"}

    memory_stats = {
        "total": f"{torch.cuda.get_device_properties(0).total_memory / (1024 ** 3):.2f} GB",
        "used": f"{torch.cuda.memory_allocated() / (1024 ** 3):.2f} GB",
        "cached": f"{torch.cuda.memory_reserved() / (1024 ** 3):.2f} GB"
    }
    return memory_stats

def calculate_performance_metrics(start_time: float, end_time: float, input_tokens: int, output_tokens: int) -> Dict[str, float]:
    """计算性能指标"""
    duration = end_time - start_time
    throughput = output_tokens / duration
    latency_per_token = duration / output_tokens * 1000  # 毫秒

    return {
        "duration_seconds": duration,
        "throughput_tokens_per_second": throughput,
        "latency_per_token_ms": latency_per_token,
        "input_tokens": input_tokens,
        "output_tokens": output_tokens
    }

5. 项目配置文件 (config.json)

{
    "model": {
        "path": "./",
        "device": "auto",
        "load_in_4bit": true,
        "max_batch_size": 8
    },
    "server": {
        "host": "0.0.0.0",
        "port": 8000,
        "workers": 1,
        "timeout_keep_alive": 60
    },
    "generation": {
        "max_length": 1024,
        "temperature": 0.7,
        "top_p": 0.9,
        "repetition_penalty": 1.0,
        "do_sample": true
    },
    "logging": {
        "level": "INFO",
        "file": "openelm_api.log",
        "max_bytes": 10485760,
        "backup_count": 5
    }
}

6. 依赖文件 (requirements.txt)

fastapi>=0.98.0
uvicorn>=0.22.0
pydantic>=2.0.0
transformers>=4.30.0
torch>=2.0.0
datasets>=2.13.0
accelerate>=0.20.3
psutil>=5.9.5
sentencepiece>=0.1.99
bitsandbytes>=0.40.0
python-multipart>=0.0.6
python-jose>=3.3.0
passlib>=1.7.4
python-multipart>=0.0.6

服务部署与优化

使用Uvicorn启动服务

# 基本启动
uvicorn app.main:app --host 0.0.0.0 --port 8000

# 生产环境启动（使用4个工作进程）
uvicorn app.main:app --host 0.0.0.0 --port 8000 --workers 4 --timeout-keep-alive 60

# 使用配置文件启动
uvicorn app.main:app --host 0.0.0.0 --port 8000 --reload --log-config logging.conf

性能优化策略

1. 模型量化

OpenELM-3B-Instruct原生支持4-bit和8-bit量化，可显著降低显存占用：

# 4-bit量化加载（推荐）
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4"
)

# 8-bit量化加载
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    load_in_8bit=True
)

2. 推理优化

# 使用Flash Attention加速
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    use_flash_attention_2=True
)

# 设置推理模式
model.eval()

# 使用no_grad禁用梯度计算
with torch.no_grad():
    outputs = model.generate(**inputs)

3. 批处理请求

@app.post("/batch-generate")
async def batch_generate_text(requests: List[GenerationRequest]):
    """批量生成文本"""
    if len(requests) > model_config["max_batch_size"]:
        raise HTTPException(
            status_code=400,
            detail=f"Batch size exceeds maximum of {model_config['max_batch_size']}"
        )
    
    # 处理批量请求
    prompts = [req.prompt for req in requests]
    # ...

Docker容器化部署

1. Dockerfile

FROM python:3.10-slim

WORKDIR /app

# 安装系统依赖
RUN apt-get update && apt-get install -y --no-install-recommends \
    build-essential \
    && rm -rf /var/lib/apt/lists/*

# 复制依赖文件
COPY requirements.txt .

# 安装Python依赖
RUN pip install --no-cache-dir -r requirements.txt

# 复制项目文件
COPY . .

# 暴露端口
EXPOSE 8000

# 启动命令
CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "8000", "--workers", "4"]

2. docker-compose.yml

version: '3.8'

services:
  openelm-api:
    build: .
    ports:
      - "8000:8000"
    volumes:
      - ./models:/app/models
      - ./logs:/app/logs
    environment:
      - MODEL_PATH=/app/models
      - DEVICE=cuda
      - MAX_BATCH_SIZE=8
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    restart: unless-stopped

API服务监控与管理

Prometheus监控指标

添加Prometheus指标监控，跟踪API性能：

from prometheus_fastapi_instrumentator import Instrumentator
from prometheus_client import Counter, Histogram

# 初始化Prometheus监控
instrumentator = Instrumentator().instrument(app)

# 自定义指标
GENERATION_COUNT = Counter('openelm_generation_count', 'Total text generation requests')
GENERATION_LATENCY = Histogram('openelm_generation_latency_seconds', 'Text generation latency')
TOKEN_THROUGHPUT = Histogram('openelm_token_throughput', 'Token generation throughput')

# 在生成接口中使用指标
@app.post("/generate")
async def generate_text(request: GenerationRequest):
    GENERATION_COUNT.inc()
    with GENERATION_LATENCY.time():
        result = model_instance.generate(...)
    TOKEN_THROUGHPUT.observe(result['throughput'])
    return result

日志配置 (logging.conf)

[loggers]
keys=root,openelm

[handlers]
keys=consoleHandler,fileHandler

[formatters]
keys=simpleFormatter

[logger_root]
level=INFO
handlers=consoleHandler

[logger_openelm]
level=DEBUG
handlers=consoleHandler,fileHandler
qualname=openelm
propagate=0

[handler_consoleHandler]
class=StreamHandler
level=INFO
formatter=simpleFormatter
args=(sys.stdout,)

[handler_fileHandler]
class=FileHandler
level=DEBUG
formatter=simpleFormatter
args=('openelm_api.log', 'a')

[formatter_simpleFormatter]
format=%(asctime)s - %(name)s - %(levelname)s - %(message)s
datefmt=%Y-%m-%d %H:%M:%S

客户端调用示例

Python客户端

import requests
import json

class OpenELMAPIClient:
    def __init__(self, base_url: str = "http://localhost:8000"):
        self.base_url = base_url

    def health_check(self) -> dict:
        """检查服务健康状态"""
        response = requests.get(f"{self.base_url}/health")
        return response.json()

    def generate_text(self, prompt: str, **kwargs) -> dict:
        """生成文本"""
        payload = {
            "prompt": prompt,
            **kwargs
        }
        response = requests.post(
            f"{self.base_url}/generate",
            json=payload
        )
        return response.json()

    def stream_generate(self, prompt: str, **kwargs) -> None:
        """流式生成文本"""
        payload = {
            "prompt": prompt,
            **kwargs
        }
        response = requests.post(
            f"{self.base_url}/stream-generate",
            json=payload,
            stream=True
        )
        
        for line in response.iter_lines():
            if line:
                # 解析SSE格式
                data = line.decode('utf-8').replace('data: ', '')
                if data == '[DONE]':
                    break
                try:
                    chunk = json.loads(data)
                    print(chunk['text'], end='', flush=True)
                except json.JSONDecodeError:
                    continue

# 使用示例
if __name__ == "__main__":
    client = OpenELMAPIClient()
    
    # 健康检查
    print("Health check:", client.health_check())
    
    # 生成文本
    prompt = "请解释什么是人工智能，并举例说明其应用领域。"
    result = client.generate_text(
        prompt=prompt,
        max_length=500,
        temperature=0.7,
        top_p=0.9
    )
    print("\nGenerated text:\n", result["generated_text"])
    
    # 流式生成
    print("\nStreaming generation:\n")
    client.stream_generate(
        prompt="请写一篇关于环境保护的短文。",
        max_length=300,
        temperature=0.8
    )

JavaScript客户端

class OpenELMAPIClient {
    constructor(baseUrl = "http://localhost:8000") {
        this.baseUrl = baseUrl;
    }

    async healthCheck() {
        const response = await fetch(`${this.baseUrl}/health`);
        return response.json();
    }

    async generateText(prompt, options = {}) {
        const response = await fetch(`${this.baseUrl}/generate`, {
            method: 'POST',
            headers: {
                'Content-Type': 'application/json',
            },
            body: JSON.stringify({
                prompt,
                ...options
            }),
        });
        return response.json();
    }

    streamGenerateText(prompt, options = {}, callback) {
        const eventSource = new EventSource(
            `${this.baseUrl}/stream-generate`,
            {
                method: 'POST',
                headers: {
                    'Content-Type': 'application/json',
                },
                body: JSON.stringify({
                    prompt,
                    ...options,
                    stream: true
                }),
            }
        );

        eventSource.onmessage = (event) => {
            if (event.data === '[DONE]') {
                eventSource.close();
                callback(null, null); // 完成
                return;
            }

            try {
                const data = JSON.parse(event.data);
                callback(null, data.text);
            } catch (error) {
                callback(error);
            }
        };

        eventSource.onerror = (error) => {
            callback(error);
            eventSource.close();
        };

        return eventSource;
    }
}

// 使用示例
const client = new OpenELMAPIClient();

// 健康检查
client.healthCheck().then(console.log).catch(console.error);

// 生成文本
client.generateText(
    "请解释什么是机器学习",
    { max_length: 300, temperature: 0.7 }
).then(result => console.log(result.generated_text))
 .catch(console.error);

// 流式生成
const element = document.getElementById('output');
client.streamGenerateText(
    "请写一首关于春天的诗",
    { max_length: 200, temperature: 0.8 },
    (error, text) => {
        if (error) {
            console.error(error);
            return;
        }
        if (text) {
            element.textContent += text;
        }
    }
);

常见问题与解决方案

1. 模型加载缓慢

解决方案：使用模型量化、启用模型并行、预加载模型到内存

2. API响应延迟高

解决方案：
- 优化生成参数（降低max_length，提高temperature）
- 使用流式响应
- 实现请求缓存
- 增加批处理能力

3. 显存不足

解决方案：

# 使用4-bit量化
model = AutoModelForCausalLM.from_pretrained(model_path, load_in_4bit=True)

# 限制批处理大小
app.state.max_batch_size = 4

4. 并发请求处理

解决方案：使用异步处理和请求队列

from fastapi import BackgroundTasks, Queue, Request

# 创建请求队列
app.state.queue = Queue(maxsize=100)

@app.post("/generate")
async def generate_text(request=Request, background_tasks=BackgroundTasks):
    if app.state.queue.full():
        raise HTTPException(status_code=429, detail="Too many requests")
    
    # 将请求加入队列
    task = await app.state.queue.put(request)
    # 后台处理请求
    background_tasks.add_task(process_queue)
    
    return {"status": "queued", "position": app.state.queue.qsize()}

总结与展望

通过本文的指南，我们成功地将OpenELM-3B-Instruct模型从本地运行转换为高效的API服务。这不仅解决了本地部署的资源占用问题，还为模型与其他应用程序的集成提供了便利。我们实现了：

完整的FastAPI服务封装，包括健康检查、文本生成和流式生成接口
多种性能优化策略，显著提升了推理效率
生产级部署方案，包括Docker容器化和监控
多语言客户端调用示例

未来，我们可以进一步探索：

水平扩展：通过负载均衡实现多实例部署
模型优化：使用蒸馏技术减小模型体积
功能扩展：添加对话历史管理、多轮对话支持
安全增强：实现请求验证、速率限制和输入过滤

希望本文能帮助你充分利用OpenELM-3B-Instruct模型的强大能力，构建出更智能、更高效的应用服务。如果你有任何问题或建议，欢迎在评论区留言讨论。

资源与互动

项目代码库：https://gitcode.com/mirrors/apple/OpenELM-3B-Instruct
官方文档：https://huggingface.co/apple/OpenELM-3B-Instruct

如果觉得本文对你有帮助，请点赞、收藏并关注作者，获取更多AI模型部署与优化的实用教程。下期我们将探讨如何实现LLM的持续部署与模型更新策略，敬请期待！

【免费下载链接】OpenELM-3B-Instruct 项目地址: https://ai.gitcode.com/mirrors/apple/OpenELM-3B-Instruct

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考