DataWhale 9月大模型实训 T2：大模型使用

原创

已于 2025-09-23 14:08:28 修改 · 1.4k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python #大模型 #自然语言处理 #笔记

于 2025-09-22 22:50:28 首次发布

文章目录：

1.1云端API调用：无需考虑电脑配置，便捷使用

1.2 调用大模型

2.1 使用 transformers 部署大模型

2.2 进阶：使用 vLLM 进行高性能部署

大模型使用的实训心得总结

本节的主要目标是“动手”，从理论走向实践，真正地把大模型用起来。

-掌握通过 API 调用云端大模型的基本方法。
-掌握使用 transformers 库在本地运行大模型的基本流程。
-了解 vLLM 等高性能推理框架的用途和基本使用方法。

1.1云端API调用：无需考虑电脑配置，便捷使用

本次实训将以硅基流动平台为例，它提供了与 OpenAI API 完全兼容的接口，我们可以直接使用 OpenAI 中的 Python 库调用模型。

注：可以使用`openai` 库的方式来调用云端大模型，向远程服务器发送请求，也可以使用 python 中的 `requests` 库，以发送网络请求的方式也可以实现云端大模型的调用。

访问硅基流动平台官网，注册账号（免费赠送14元），在个人中心找到你的 API Key（密钥）和 API Base URL（接口地址）。请务必保管好你的 API Key，不要泄露给别人哈。

API Base URL（接口地址）在模型处找到需要的大模型，点击API文档内就有接口地址，本次项目需要调用“Qwen/Qwen3-8B”。API Base URL：https://api.siliconflow.cn/v1/chat/completions

1.2 调用大模型

接下来，我们安装`openai`库，使用清华镜像源下载，用于调用大模型。

!pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

!pip install -q openai

使用以下Pyhon代码调用云端API大模型：

from openai import OpenAI

client = OpenAI(api_key="you_api_key", 
                base_url="https://api.siliconflow.cn/v1")
response = client.chat.completions.create(
    model="Qwen/Qwen3-8B",
    messages=[
        {'role': 'user', 'content': "来一首古诗"}
    ],
    max_tokens=1024,
    temperature=1.0,
    stream=False
)
print(response.choices[0].message.content)

以下是我调用Qwen3-8B大模型的回答：

但是，我们会发现stream设置为False了，那么设置为True会怎么样呢？stream如果是False大模型就是一次性全部输出，设为True就会像deepseek一样的流式输出（逐字输出）。

以下是我的更改流式输出的代码，大家可以参考:

from openai import OpenAI

client = OpenAI(
    api_key="x'x'x", 
    base_url="https://api.siliconflow.cn/v1"
)

# 将stream参数改为True
response = client.chat.completions.create(
    model="Qwen/Qwen3-8B",
    messages=[
        {'role': 'user', 'content': "鼓励一下我学习大模型！"}xxx
    ],
    max_tokens=1024,
    temperature=0.9,
    stream=True  # 这里改为True
)

# 处理流式响应
for chunk in response: # 遍历API返回的每个数据块
    if chunk.choices[0].delta.content:# 检查刚传来的数据包里，有没有新的文字内容
        print(chunk.choices[0].delta.content, en