随着证券业务的快速发展及所涉数据量的急剧增加,传统的人工客服已无法满足用户日益增长的咨询需求。智能问答系统通过采用大模型技术,可以提供高效、便捷的投顾领域金融运营支持服务,而大模型在处理复杂、多变的问题时,经常会出现答非所问的情况,即幻觉问题。Embedding技术可将大模型与知识库进行结合,通过限定上下文内容对问题作出更加准确的回答。但是,由于Embedding技术在处理同义词、多义词及意思相近的组合问题时的局限性,智能问答系统常因匹配精度不足而不能准确识别和回答用户的问题。为解决这一问题,本文提出一种基于大模型与Embedding技术的智能金融运营助手建设方案,并探讨其在投顾领域实际应用中的表现及改进方向。
一、智能问答系统大模型
及知识库应用存在的问题
1.相似度计算精度不足
现有Embedding技术在处理多变的自然语言时存在一定的局限性。
(1)自然语言的复杂性
自然语言表达方式多样,同一问题可以有多种不同的表述方式。现有Embedding技术对语义的理解有限,难以准确捕捉问题之间的潜在相似性。
(2)Embedding技术的局限性
尽管Embedding技术在文本表示方面取得了显著进展,但在处理同义词、多义词时仍存在一定的局限性,相似度计算的精度不足导致匹配结果不准确。
2.知识库覆盖范围有限
(1)知识库的动态性
由于新问题和新产品不断涌现,知识库需要不断更新,以确保能够及时响应最新的市场动态和用户需求。
(2)数据收集与整理的挑战
知识库的构建依赖于大量数据的收集和整理,因此需要建立有效的机制,自动化地收集和整理新数据,以确保知识库的及时更新和扩展。
二、提升问答准确度的方法
1.提升语义理解能力
(1)引入高级语义分析技术
通过引入BERT、RoBERTa等高级语义分析技术,可提升智能问答系统对自然语言的理解深度,在此基础上分析问题的语义特征,可得出更准确的相似度计算值。
(2)相似度评级
通过设定相似度阈值可区分客户问题命中等级,如超出某阈值为完全相关,低于某阈值为完全不相关。
(3)上下文及提示词限定
根据相似度评级结果可生成上下文信息,通过对提示词的设定,以及优化问题回答形式和范围,可提升问题匹配的精度。
2.动态知识库更新
(1)自动化数据收集与整理
通过自动化技术可实现对新数据的收集和整理。如利用网络爬虫、API接口等工具,实时收集金融领域的最新数据,并动态更新知识库内容。
(2)增量学习
采用增量学习的方法,可不断优化和更新知识库。同时,根据用户提问频率和回答反馈,逐步调整知识库的内容和结构,确保其能够准确反映最新的政策法规、金融产品信息及其他内容。
3.模型评价
通过Rerank优化模型对答案相关度进行打分,可进一步提升答案的准确性和相关性。
(1)答案打分机制
引入Rerank机制,对初步匹配到的内容进行重新排序。综合考虑内容的相关度、上下文一致性和用户问题,对生成的最终答案进行打分,通过设定模型打分阈值,过滤低分答案,减少无关或低相关度答案。
(2)答案优化与再加工
利用大模型对匹配答案进行再加工,结合用户具体问题的上下文信息,优化答案的准确性和相关性,从而确保最终生成的答案准确有效。
三、智能金融运营助手系统介绍
基于上述提升问答准确度的解决方法,中信建投证券股份有限公司构建了智能金融运营助手系统(如图1所示)。
图1 智能金融运营助手系统架构
答疑机器人以企业微信工作群机器人的形式对外提供服务,结合智能投顾运营材料,为客户经理提供投顾产品介绍、签约形式说明、收费情况介绍、签约异常问题解决、自动转办人工处理等运营支持。
投顾专家助手、投研助手以PC客户端的形式提供服务,通过对行情、研报、资讯、财报、新闻、交易、持仓、浏览数据等所有与投顾服务相关的信息进行学习和归纳总结,给出专业观点、投资建议等,且支持信息溯源。
BI助手以PC客户端或插件的形式提供服务,支持自然语言形式的运营数据分析,并生成柱状图、趋势图等图表。
合规助手可对自然语言形式的法律法规、业务规则等进行合规性检查,实现事中实时风控,为其他业务单元提供合规保障。
在系统建设过程中,主要涉及模型训练、知识库构建、问题匹配与答案生成等内容。
1.模型训练
以答疑机器人为例,智能金融运营助手系统基于千问14b开源模型,对金融数据和投顾运营产品数据进行微调训练。
(1)数据收集与预处理
智能金融运营助手系统可收集大量金融领域的相关数据,包括金融报告、市场分析、运营日志、客户咨询记录等,并对数据进行预处理,包括数据清洗、标注、去重等,以确保数据质量和一致性。
(2)微调训练
通过微调训练,模型能够更好地理解和处理投顾领域的专业术语和常见问题,以提高回答的专业性和准确性。智能金融运营助手系统微调训练结构如图2所示。
图2 智能金融运营助手系统微调训练结构
原有数据集即“Base抽样数据集+已有业务场景数据集”。其中Base抽样数据集是从Base模型训练集中按照不同类型抽取的,数量总和分别为1000、10000、100000、1000000条的数据集。业务场景数据集是专业业务场景的数据经过加工处理得到的数据集。
新增数据集是新场景需要增加的数据集。得到新增数据集后,需要进行数据集合并,即将新增数据集合并到原有数据集。此处需要考虑的是,当“新业务场景数据集+已有业务场景数据集”数量大于Base抽样数据集数量的时候,需要合并使用更大量级的数据集,用以保证整个模型的通用性效果不会明显下降。合并后可以得到新的训练集和新的验证集。
数据设计是针对新场景和其他已有业务场景、通用场景中的问题设计明显的提示词,提示词可以是用户显式输入,也可以是通过场景类型推导得到后补充到问题中,主要用来保证大模型可以针对多个场景、互不干扰地进行优化。
批量验证即使用新的模型对新的验证集进行全面的验证。
效果评估即“自动化评估+人工抽样核验”。智能金融运营助手系统采用gpt4进行评估,实践中也可通过其他成熟且优秀的大模型进行效果评估,然后针对自动化评估结果进行人工抽样核验,从而得到最终的评估结果。
分析及设计改进方案即如果效果评估结果没有达到要求,则需要分析具体原因并制定改进方案,主要是数据清洗方案。
通过上述流程,如果没有得到符合预期效果的模型,就会通过新的清洗方案,得到新的数据集,然后再重复该流程,直到得到最终可以上线的模型替代原有模型。
2.知识库构建
知识库构建流程主要包括数据收集、数据提取、知识分块及数据入库四个步骤(如图3所示)。知识库中包含金融领域的常见问题及其标准答案,内容需要涵盖金融市场动态、投资策略、产品运营细节等多个方面,确保能够应对多样化的用户需求。
图3 知识库构建流程
知识库构建过程中需注重数据的质量及其结构化处理方式,以确保后续检索与应用的效果。进行数据收集时,应关注数据来源的合法性与多样性;在数据提取环节,需选择适配技术并校准OCR等识别误差;知识分块应以语义完整性为核心,避免内容混杂或知识碎片化;在数据入库环节进行数据向量化时,需要根据知识库应用场景选择合适的Embedding模型。
3.问题匹配与答案生成
(1)问题匹配
当用户提出问题时,智能金融运营助手系统利用Embedding技术计算用户问题与知识库中问题的相似度,同时,选用余弦相似度、欧氏距离等算法,基于向量空间中的距离来衡量问题之间的相似度。
(2)答案生成
对于匹配度较高的问题,智能金融运营助手系统利用大模型对其答案进行评分和再加工。随后,结合上下文信息和用户具体需求生成定制化回答,并确保回答的准确性和相关性。
四、智能金融运营助手系统
应用成效与调优建议
1.应用成效
(1)系统测试与评估
通过设定一系列标准化测试问题,可对智能金融运营助手系统的匹配精度和回答准确性进行评估。其中金融运营领域内问题主要考察机器人对预设问题集的匹配和精确问答能力,金融运营领域外问题主要考察机器人对预设问题集之外问题的识别及拒绝回答的能力,特别是对于与预设问题集问题相似的、容易引起语义混淆的问题的识别能力。机器人功能验证主要考察大模型防prompt攻击能力、多并发工作能力以及机器人身份验证能力等。测试结果表明,对于标准化问题,系统能够快速提供准确答案,可显著提升运营效率。
(2)用户反馈与改进
通过收集用户在实际使用过程中的反馈信息,可分析匹配精度不足的原因。同时,对问题和答案进行分析,不断改进智能金融运营助手系统的相似度计算和答案生成算法,从而提升系统的整体性能。
在实际应用中,智能金融运营助手系统在处理大部分标准化问题时表现出色,能够快速且准确地提供答案。然而,对于一些表述方式不同但本质相同的问题,系统的匹配精度仍有待提高。这主要是由于Embedding技术在计算相似度时对语义的理解有限,导致一些问题未能准确匹配到知识库中的答案。
2.调优建议
人工校对能够识别自动化测试中未准确识别的问题,所以可通过提示词优化、知识库扩充、问题形式变换等方式对智能金融运营助手系统进行调优,使问答准确率得到进一步提升。实施调优措施后,系统在处理多变问题时的匹配精度显著提高。通过对比实验,调优后的系统在金融运营领域内知识问答准确率达到95%以上。
五、智能问答系统技术前瞻
随着人工智能技术的不断进步,智能问答系统将在更多领域得到应用和发展,未来的研究方向大致可分为以下几个方面。
1.多模态数据融合
通过结合图像、音频、视频等多模态数据,可提升智能问答系统对复杂问题的理解和处理能力。同时,多模态数据融合将使系统能够处理多元化的信息,提高回答的准确性和全面性。
2.自适应学习机制
引入自适应学习机制,可使智能问答系统能够根据用户的反馈和使用习惯不断进行优化和自我调整,从而更好地满足用户需求,提升用户满意度和使用体验。
3.边缘计算与云计算相结合
边缘计算与云计算相结合可提升智能问答系统的响应速度和处理能力。边缘计算可以在用户端快速处理简单问题,而云计算则用于处理复杂问题和进行大规模数据分析,二者结合将显著提升智能问答系统的整体性能。
本文提出了一种基于大模型与Embedding技术的智能金融运营助手建设方案,并通过优化相似度计算、动态知识库更新以及模型打分等方法,有效提升了系统的匹配精度和回答准确性。未来,通过进一步的技术改进和应用拓展,基于大模型与Embedding技术的智能金融运营助手系统将有望在更多领域发挥更为重要的作用。
如何零基础入门 / 学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?
”“谁的饭碗又将不保了?
”等问题热议不断。
不如成为「掌握AI工具的技术人」
,毕竟AI时代,谁先尝试,谁就能占得先机!
想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
那么我作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,希望可以帮助到更多学习大模型的人!至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
👉 福利来袭
优快云大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈
全套AGI大模型学习大纲+路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉 福利来袭
优快云大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。