前言
记得第一次用大模型是23年2月左右,那时候基本都是用Chatgpt网页版,版本应该是3.0左右?给我的感受就是确实效果很好,能够帮助我们完成很多简单重复的工作,尤其是文档任务。
到今年七月份才陆陆续续开始用别的大模型,不仅仅是简单的网页版对话,还有部署到本地的大模型,也有因为模型太大本地部署不下或者不开源而使用API来调用的大模型,尝试了各种prompt,也试了各种任务,本文就简单写写我的一些使用感想。
大模型很“笨”,也很“聪明”
【为什么说大模型很笨呢?】
因为我们需要把需求和它讲的很清楚,最好还要告诉它如何去思考,最最好还要给它一个外部数据库让他可以进行RAG,这样才能让它发挥出比较好的性能。
比如现在各种GPT教程都告诉你,prompt很重要,用GPT写文章需要告诉它:语言风格、面向群众、字数限制等等。
所以,LLM其实不是“笨”,只是“不了解我们的需求”。用过GPT的都知道,它啥都会一些,可以问它C语言,也可以让它写一首诗,还可以让它给你背元素周期表,既然这么全能,那它当然没法瞬间get到你需要使用它什么部分的功能。如果一个模型它专门用于代码生成,那你就可以省略这一句“You are an expert experienced in coding.”。
那么,如果你想要进行某个具体任务,或者某个小模型的效果会超过GPT,因为它是这个领域的“专家”。
【为什么它又是“聪明”的呢?】
因为大模型确实什么都会一些,就比如随着gpt从3到4,确实在性能方面有质的提升。
对于聪明的人,有这么一句话,“聪明的人最大的优点就是聪明,最大的缺点也是聪明”,放在GPT这里也是合适的,GPT常常会“自作聪明”,明明它并不知道,但还是强撑着回答你。比如你让他找一堆文献,它分分钟编一堆给你,不过期刊/会议的名称倒是一般编不出来。