前言
随着deepseek的发布,大模型迎来了一波热潮,作为一名计算机专业的大学生,当然要关注前沿技术,于是我花了一个星期左右的时间通过网课学了大模型的一些入门知识。接下来,我将在这篇文章做一个整理总结。
AI相关名词与它的涵义
AI Agent(人工智能代理)
首先我们需要知道大模型的局限性,我们可以把大模型看作我们的脑子,他只能思考,而不能做出行动。而ai agent就是为他塑造了一具身体,他可以根据思考调用工具来做出行动。假如我问deepseek我要怎么查询数据库里面的某些数据,deepseek只能告诉你要怎么怎么做,而不能自己调用函数去查找。但是ai agent就可以判断是否调用我们为他准备好的接口,自行去读取数据库里面的数据,然后直接向我们呈现结果,这就是ai agent。
Finetuning(微调)
在已有的开源大模型(通用大模型)的基础上,根据我们的个性化需求,比如专门解答算法题目,数学题目的大模型,还有电商客服大模型等等,通过投喂数据对通用大模型进一步训练,让他能够更加符合我们的需求,这就叫做微调。
大模型本地化部署
这里我以Windows本地化部署deepseekr1为例,做一个简单的教程。
1.下载ollama。直接到官网下载安装即可Download Ollama on Windows
2.在ollama官网models页面下找到deepseek-r1,然后百度找到适合你的电脑配置的版本,选择该版本。
3.复制命令语句到控制台运行(win+R输入cmd进入)等待安装完成。
4.测试
控制台输入ollama run deepseek-r1进入对话。到这一步已经部署完成。
5.可视化界面(可选)
选择Chatbox或者Anything LLM,个人更推荐Anything LLM,因为功能更丰富。分别到官网下载配置即可使用,配置过程非常简单。
6.python通过ollama库调用api(可选)
需要先下载ollama库
pip install ollama
以下是调用api示例代码
import ollama
messages=[{'role':'user', 'content': '你好,请做个自我介绍。'}]
response=ollama.chat(
'deepseek-r1',
messages=messages,
stream=True,
)
for chunk in response:
print(chunk['message']['content'],end='',flush=True)