莫名其妙的“涌现”袭来,就像是海上来路不明的诡异海啸,当很多人都在吹捧大模型时,优维则选择理性潜入深水区,掌握了大模型的来龙去脉,也在实际应用中获得产品经验方法论。
这篇文章旨在全面剖析优维科技在大模型应用领域的思考、布局与真实场景对接成果。
01
从鲁迅和周树人说起:
窥见大模型“涌现”背后的局限性
图1
图2
强大如ChatGPT,也难逃“鲁迅与周树人”的认知陷阱,对于大模型当下的局限性,我们认为至少可以总结如下几点——
-
缺乏领域特定信息:LLM仅基于公开数据集训练,缺乏领域特定信息、专有信息等非公开数据
-
容易产生幻觉:底层原理是基于概率的token by token的形式,不可避免产生“一本正经胡说八道”的情况(图1)
-
时效性差:模型训练完后,无法获取更新后数据集的信息(图2),且无法频繁重新训练
改进大模型,我们认为至少应该具备如下要素——
-
外部数据库承载专业知识:用向量数据库构建知识库;使用数据库扩展大模型的外部记忆
-
微调:使用少量标注数据增强特定领域能力
-
提示工程:添加提示词,生成更加准确的信息
带着这样的思考,我们将进入本文的第一个重点内容。
02
本地知识库搜索:
优维大模型的初始化实践
图3
不久之前,优维已经上线了本地知识库搜索(图3),我们的产研部门有很多同事已经用了一段时间,提到大模型,很多用户的第一反应是我要去训练,仿佛所有的东西都要训练。其实不然,我们有另外一套执行机制。
今天就针对性分享一下,优维的本地知识库是怎么做的,以及我们是怎么把本地语料与大模型结合起来的。
这里首先要引入一个概念:向量数据库。
对于这个概念,相信长期关注大模型相关资讯的朋友应该知道,它通常和大模型一起被提及。
向量数据库是用来存储和检索向量的一个数据库,其重点特性是适应数据量大、数据维度高以及相似度匹配的场景。你可以用来检索和存储文本数据,还可以用于自然语言处理领域,比如文本的分类、聚类和相似度计算等。
回归今天的主题,大家只要记住:向量数据库可以计算语义相似度。
举个例子,我们随机提出某个关于EasyCore的问题:EasyCore里的某个工具的用途?或者说我的EasyCore是怎么备份的?
向量计算就会算出这篇文章的向量和该问题的向量的最大相似度,凭着向量最大相似度,我们就能直接找到最