大语言模型的主要功能是预测:输入一些字符串,它预测输出另一些字符串,这个特点使它擅长翻译。
本文描述了如何使用大语言模型(LLM
)实现基本的翻译功能,此翻译功能的特点是:无需指定源语言,只需要指定目标语言就可以进行翻译了。
准备
在正式开始撸代码之前,需要准备一下编程环境。
-
计算机
本文涉及的所有代码可以在没有显存的环境中执行。 我使用的机器配置为:- CPU: Intel i5-8400 2.80GHz
- 内存: 16GB
-
Visual Studio Code 和 venv
这是很受欢迎的开发工具,相关文章的代码可以在Visual Studio Code
中开发和调试。 我们用python
的venv
创建虚拟环境, 详见:
在Visual Studio Code中配置venv。 -
Ollama
在Ollama
平台上部署本地大模型非常方便,基于此平台,我们可以让langchain
使用llama3.1
、qwen2.5
等各种本地大模型。详见:
在langchian中使用本地部署的llama3.1大模型 。
使用本地大语言模型
from langchain_ollama.llms import OllamaLLM
model = OllamaLLM(model="llama3.1")
llama3.1
支持多语言,适合一般性任务。langchain
也支持很多其它平台和模型,详见:Chat models 。
翻译测试
ChatModel
是 LangChain Runnable
的实例,这意味着它们公开了一个用于与它们交互的标准接口。我们用 .invoke
方法即可简单的调用模型。
def translate_1(text)