【第一节】包括7道试题的详细解读及说明如下:
PS小插图:技术方案标书工具介绍:【巧*书】是一款专为企业打造的高效AI智能写标书工具,通过AI大模型精准解析招标文件,智能生成投标内容,快速制作符合要求的高质量标书。
第一题:RAG技术体系的总体思路
- 数据预处理:对原始数据进行清洗、格式化等操作,确保数据的质量和一致性,为后续处理奠定基础。
- 分块:将预处理后的文本数据分成合适大小的块,这一步骤至关重要。块的大小和划分方式会直接影响后续的文本向量化和检索效果。如果块太大,可能会包含过多无关信息,降低检索的准确性;如果块太小,则可能无法完整表达语义。
- 文本向量化:将分块后的文本转换为向量形式,以便计算机能够处理和比较。常用的向量化方法包括词袋模型、TF-IDF、词嵌入(如Word2Vec、GloVe)等。
- query向量化:将用户的查询同样转换为向量表示,使其能够与文本向量进行匹配和比较。
- 向量检索:在向量化的文本数据中,根据query向量查找最相关的文本块。这一步骤通常使用向量数据库和相似性搜索算法来高效完成。
- 重排:对检索到的文本块进行重新排序,进一步提高相关性,确保最相关的信息排在前面,以便为生成模型提供更优质的输入。
- query+检索内容输入LLM:将用户的查询和经过重排的检索内容一起输入到大型语言模型(LLM)中,让模型基于这些信息生成最终的回答。
- 输出:LLM生成的回答经过进一步的处理和优化后,作为最终结果输出给用户。
第二题:使用外挂知识库主要为了解决的问题
- 克服遗忘问题:传统的大语言模型在训练完成后,无法及时获取新知识,容易出现“遗忘”。外挂知识库可以实时提供最新信息,使模型能够基于最新知识进行回答。
- 提升回答的准确性、权威性、时效性:通过检索权威、准确的知识库中的信息,模型的回答能够更加可靠和准确,同时也能保证回答的时效性,满足用户对最新信息的需求。
- 解决通用模型针对一些小众领域没有涉猎的问题:通用模型在一些专业或小众领域可能知识有限,外挂知识库可以补充特定领域的专业知识,使模型在这些领域也能提供高质量的回答。
- 提高可控性和可解释性,提高模型的可信度和安全性:外挂知识库使得模型的输出有迹可循,用户和开发者可以清楚地了解回答的依据,从而提高模型的可控性和可解释性。这也有助于发现和纠正可能存在的错误或偏差,提高模型的可信度和安全性。
第三题:如何评价RAG项目效果的好坏
- 针对检索环节的评估:
- MMR(平均倒排率):衡量查询结果的排名质量,计算的是查询结果中相关文档的平均位置倒数。MMR值越高,说明相关文档在排名中越靠前,检索效果越好。
- Hits Rate(命中率):统计前k项检索结果中包含正确信息的项的数目占比。该指标反映了检索结果的准确性和覆盖率,命中率越高,表示检索到的相关信息越多。
- NDCG(归一化折损累积增益):综合考虑了检索结果的相关性和排名顺序,通过对不同相关程度的文档赋予不同的权值,并计算累积增益来评估检索效果。NDCG值越高,说明检索结果的质量越好。
- 针对生成环节的评估:
- 非量化评估:从生成内容的完整性、正确性、相关性等方面进行主观评价。完整性是指回答是否涵盖了问题的各个方面;正确性是指回答是否准确无误;相关性是指回答是否与问题紧密相关。
- 量化评估:使用Rouge-L等指标来衡量生成内容与参考答案之间的相似度。Rouge-L通过计算最长公共子序列的长度来评估生成文本与参考文本的重合度,从而量化生成内容的质量。
第四题:大模型的幻觉问题、复读机问题
- 幻觉问题:指模型生成的内容与事实不符,或者完全是无意义的、虚构的信息。这可能是由于模型在训练过程中学习到了错误的模式,或者在生成过程中缺乏有效的约束和监督,导致生成的内容偏离了真实的语义和逻辑。
- 复读机问题:表现为模型在生成内容时,不断地重复某些短语、句子或表达方式。这通常是由于模型在训练数据中过度拟合了某些高频模式,或者在生成过程中缺乏足够的多样性引导,导致生成的内容单调乏味。
第五题:针对幻觉问题和复读机问题的解决办法
- 针对幻觉问题:
- 引入外挂知识库:通过检索真实、可靠的知识库中的信息,为模型提供准确的上下文和事实依据,引导模型生成符合事实的内容。
- 加入一些纠偏规则:在模型的训练和生成过程中,引入特定的规则或约束条件,对可能出现的幻觉内容进行纠正和限制。
- 限制输出长度:适当控制生成内容的长度,避免模型因过度扩展而产生幻觉信息。
- 针对复读机问题:
- 丰富数据集的多样性:增加训练数据的种类和范围,避免模型过度依赖某些特定的表达方式,提高模型的泛化能力和生成内容的多样性。
- 预处理时尽量过滤重复无意义的文本:在数据预处理阶段,去除重复、冗余或无意义的文本片段,减少模型学习到这些不良模式的机会。
- 同义词替换等做数据增强:通过对文本进行同义词替换、语义扩展等数据增强操作,增加训练数据的多样性,帮助模型学习到更多不同的表达方式。
- 温度参数调整:在模型的生成过程中,适当调整温度参数,增加生成内容的随机性和多样性,避免模型过于保守地重复相同的内容。
- 后处理与过滤:在模型生成内容后,进行后处理操作,如去除重复的短语、句子,或者对生成内容进行重写和优化,以提高内容的质量和多样性。
第六题:出现幻觉问题和复读机问题的原因
- 幻觉问题的原因:
- 训练数据的噪声:训练数据中可能包含错误、矛盾或不准确的信息,模型在学习过程中可能会吸收这些噪声,导致生成幻觉内容。
- 模型的过度自信:模型在生成过程中可能过于自信地预测某些词语或短语,而忽略了上下文的真实语义和逻辑,从而产生幻觉。
- 缺乏有效的监督和约束:在模型的训练和生成过程中,如果没有足够的监督信号和约束条件,模型可能会随意生成不符合事实的内容。
- 复读机问题的原因:
- 训练数据的不平衡:如果训练数据中某些表达方式出现的频率过高,模型可能会过度拟合这些模式,导致在生成时不断重复。
- 模型的生成策略:模型的生成策略可能倾向于选择最可能的词语或短语,而忽略了多样性,从而导致重复内容的出现。
- 缺乏多样性引导:在训练和生成过程中,如果没有明确的多样性引导机制,模型可能会陷入局部最优,生成相似的内容。
第七题:当前主流的开源大模型及其架构
当前开源影响范围最广、生态建设最好的开源大模型是Meta的LLaMA。其架构基于Transformers,具体进行了以下改动:
- 输入前置归一化:为了提高训练稳定性,对每个子层做输入前置归一化,采用RMSNorm作为归一化函数。这种归一化方法能够更好地稳定模型的训练过程,提高模型的收敛速度和性能。
- SwiGLU激活函数替换ReLU激活函数:SwiGLU激活函数具有更丰富的非线性特性,能够更好地捕捉复杂的语义和逻辑关系,从而提升模型的性能。
- 旋转嵌入代替绝对位置嵌入:旋转嵌入能够更好地捕捉序列中的位置信息,并且在长序列建模方面具有优势。它通过旋转操作将位置信息融入到词嵌入中,使得模型能够更好地利用位置信息进行上下文理解。
- 高效实现的causal multi-head attention:使用causal multi-head attention的一个高效实现来减少内存占用和运行时间。这种实现能够在保证模型性能的同时,提高计算效率,使得模型能够处理更长的序列和更大的数据集。
PS小插图:技术方案标书工具介绍:【巧*书】是一款专为企业打造的高效AI智能写标书工具,通过AI大模型精准解析招标文件,智能生成投标内容,快速制作符合要求的高质量标书。