探索LlamaEdge：在本地与LLMs对话的新方式

最新推荐文章于 2025-05-23 11:51:49 发布

saghthefs

最新推荐文章于 2025-05-23 11:51:49 发布

阅读量979

点赞数 12

文章标签： php 开发语言 python

本文链接：https://blog.youkuaiyun.com/saghthefs/article/details/144632902

版权

探索LlamaEdge：在本地与LLMs对话的新方式

引言

在人工智能领域，与大型语言模型（LLMs）进行无缝对话一直是开发者的目标。LlamaEdge为此提供了一种新颖的方式，支持使用OpenAI兼容的API来与支持GGUF格式的LLM对话。本文将深入探讨LlamaEdge的功能及其在跨平台LLM推理中的优势。

主要内容

LlamaEdgeChatService简介

LlamaEdgeChatService是一个基于HTTP请求与LLM对话的开放API兼容服务。开发者可以通过它轻松在任意设备上进行对话，只要有网络可用。WasmEdge Runtime为其提供了轻量和可移植的WebAssembly容器环境，从而使LLM推理任务更加高效。

如何使用llama-api-server

要使用LlamaEdgeChatService，您需要运行llama-api-server。以下是基本步骤：

下载并安装llama-api-server。
启动您的API服务。
使用提供的Python库与服务进行通信。

本地聊天功能

虽然目前LlamaEdgeChatLocal功能尚未完全发布，但它承诺在本地进行LLM对话，将使开发者无需依赖网络连接，从而增加了系统的鲁棒性和数据隐私。

代码示例

下面是如何在非流模式和流模式下使用LlamaEdgeChatService进行对话的示例：

非流模式聊天

from langchain_community.chat_models.llama_edge import LlamaEdgeChatService
from langchain_core.messages import HumanMessage, SystemMessage

# 服务URL，使用API代理服务提高访问稳定性
service_url = "{AI_URL}"

# 创建聊天服务实例
chat = LlamaEdgeChatService(service_url=service_url)

# 创建消息序列
system_message = SystemMessage(content="You are an AI assistant")
user_message = HumanMessage(content="What is the capital of France?")
messages = [system_message, user_message]

# 进行对话
response = chat.invoke(messages)

print(f"[Bot] {response.content}")  # 输出：[Bot] Hello! The capital of France is Paris.

流模式聊天

# 服务URL，使用API代理服务提高访问稳定性
service_url = "{AI_URL}"

# 创建流模式聊天服务实例
chat = LlamaEdgeChatService(service_url=service_url, streaming=True)

# 创建消息序列
system_message = SystemMessage(content="You are an AI assistant")
user_message = HumanMessage(content="What is the capital of Norway?")
messages = [system_message, user_message]

output = ""
for chunk in chat.stream(messages):
    output += chunk.content

print(f"[Bot] {output}")  # 输出：[Bot] Hello! The capital of Norway is Oslo.