一、会议背景与讨论缘起
在客服系统中,准确识别用户意图是提供高效、精准服务的关键。然而,在实际应用中,常会出现因语义匹配不准确而导致的意图识别错误问题。例如,在 Lazada 平台处理取消订单的场景时,用户表达的“ I changed my mind”与“ Change of mind”在语义上是相同的取消原因,却因表述差异未被正确匹配,进而未触发相应的取消挽回话术。这一问题凸显了现有基于 emb(Embedding)近似度的意图识别方法在处理语义相似但表述多样的用户话语时的局限性,亟需深入探讨其可行性并寻求改进之道。
二、初步讨论:emb 近似度的局限与 AI 语义识别的潜力
(一)李某某的见解
李某某指出,传统的 Java 代码难以实现这种语义层面的匹配,而 AI 语义识别技术则能有效处理此类问题。他认为,通过 AI 技术,可以让系统理解“ Change of mind”与“ I changed my mind”在语义上的一致性,从而实现精准匹配。这表明,相较于规则匹配,AI 语义识别在捕捉语义相似性方面具有独特优势,能够突破单纯基于关键词或短语匹配的局限,更深层次地理解用户的真实意图。
(二)余某某的担忧
余某某提到,尽管语义匹配在理论上可行,但他们在之前的尝试中发现,emb 搜索对否定词的处理存在缺陷。例如,“我想吃午饭”与“我不想吃午饭”在 emb 搜索时匹配度很高,然而两者实际语义却完全相反。这一问题凸显了 emb 近似度方法在处理语义相反的句子时的不足,可能导致严重的意图识别错误,进而影响客服系统的准确性和可靠性。
(三)聂某某的建议
针对 emb 搜索的这一局限,聂某某提出需要进行微调,以提高其对否定词等特殊情况的识别能力。但他也指出,目前尚不确定是否存在专门针对这种微调的开源数据集。这表明,在探索基于 emb 近似度的意图识别可行性时,数据资源的获取是一个关键问题,优质的微调数据集对于提升模型性能至关重要。
三、项目现状与改进方向
(一)项目中的意图识别模型
目前项目中已采用基于小模型(BERT 变种)的意图识别模型,该模型是团队自行训练的。为了持续优化模型性能,团队定期补充语料,并保持每两周训练一次、每两周测算一次的频率。然而,值得注意的是,尽管模型在一定程度上能够识别用户意图,但尚未进行微调,这限制了其在复杂场景下的适应性和准确性。
(二)Emb 加微调的潜力
在讨论中,大家逐渐达成共识:如果能够有效解决 emb 的局限性问题,将能显著提升意图识别的命中率,并降低运营成本。具体而言,通过在 emb 的基础上进行微调,可以让模型更好地适应特定的业务场景和用户表达习惯,从而提高对用户意图的理解能力。这一改进方向为基于 emb 近似度的意图识别提供了新的可能性,也为后续的技术优化指明了路径。
四、进一步讨论:微调与 emb 近似度方案的深入分析
(一)微调能力的规划与兜底话术的权衡
聂某某强调,微调能力需要在后续的技术规划中建立起来,并且可以将其纳入技术规划中。这表明,团队已经认识到微调在提升模型性能方面的重要性,并计划将其作为长期的技术发展方向之一。同时,针对类似“匹配问题缘起”这样的 BUG,他建议在匹配不上时,暂时使用兜底话术来应对。这体现了在技术优化过程中,需要兼顾用户体验和系统稳定性,通过兜底话术为用户提供基本的回复保障,避免因技术问题导致服务中断。
(二)魏某某对匹配问题与微调的见解
魏某某指出,在某些功能中已经实施了兜底话术,但并非所有功能都适合采用这种方式。如果话术不能通用,那么最好的处理方法就是不回复,因为错误的回复可能会给用户带来更糟糕的体验。他还强调,微调是与匹配问题相对独立的另一问题,需要单独考虑。在讨论意图识别准确问题时,他认为可以采用 emb 近似度方案;而在问答效果问题上,则需要微调来介入。如果仅为分类引入微调,可能会导致成本过高而效果不明显。这说明,在实施技术改进时,需要根据具体问题和场景进行有针对性的优化,合理权衡成本与收益。
(三)Emb 近似度方案的挑战与成本考量
魏某某进一步分析了引入 emb 近似方案时需要解决的问题。首先,需要明确 emb 近似方案与原有分类模型的关系,确保两者能够协同工作,共同提升意图识别的准确性。其次,要结合上下文信息才能提高识别的准确性,因为用户的意图往往与其对话的上下文密切相关。此外,他还提到了成本问题,指出每一句买家问句都需要经过 emb 处理,然后再进行检索,这将产生大量的计算和调用成本。尽管之前有尝试过引入 emb 近似方案,但发现可能会引入部分错误,且整体效果提升有限,意图准确率仅上涨 1-2%。这表明,在推进 emb 近似度方案时,需要充分考虑其实际效果与成本之间的平衡,避免盲目投入资源而收效甚微。
(四)问答效果提升的探索
在售前场景中,目前采用的 RAG(Retrieval-Augmented Generation)模型能够达到所需的准确率,但在其他 Agent 场景下可能无法满足预期效果,届时可能需要进行微调。这说明,不同业务场景对问答效果的要求各异,需要根据具体场景的特点和需求,灵活选择和调整技术方案,以实现最佳的问答效果。
五、成本与技术细节的探讨
(一)Emb 成本的讨论
余某某认为 emb 的成本应该很低,可以忽略不计。然而,魏某某则指出,要配套使用 emb,需要对训练集内容和买家问句分别生成 emb,因此成本取决于用来生成 emb 的模型和调用的数量。如果使用的是免费开源的模型,那么成本相对较低,主要为部署成本;但如果使用的是 chatgpt 的 emb,成本就会很高。李某某回忆起以前使用 azure 实现 emb 时,底层是基于 chatgpt 的 emb,当时记得不算 token 的成本,因此认为成本应该不高。梁某某补充道,现在 OpenAI 提供的 emb 有两种,small 版本为 0.02/1M,large 版本为 0.13/1M,这表明不同版本的 emb 在成本上存在差异,需要根据实际需求和预算进行选择。
(二)微调成本与资源需求
李某某询问现在做微调的成本是否还很大,是否还需要使用英伟达的 GPU。余某某回应说,大模型 SFT(Supervised Fine-Tuning)不需要本地部署,云上面都是开箱即用的,这意味着在云端进行微调可以降低本地计算资源的需求。王某某进一步解释,如果在本地进行微调,对计算资源的要求是很高的,且通常是基于开源模型进行。这表明,微调的成本和资源需求与其实施方式密切相关,云端微调可以有效降低本地资源压力,但可能涉及一定的云服务费用。
六、技术发展趋势与未来展望
(一)从传统到集成学习的演变
李某某回顾了技术的发展历程,从传统的规则 + 机器学习,到后来的深度学习 + 预训练模型,再到现在的集成学习,他感慨意图识别仍旧是个大问题。这反映出,在技术不断进步的过程中,意图识别的复杂性和挑战也在不断增加,需要持续探索和创新更先进的技术方法来应对。
(二)大模型落地的靠谱方案
余某某分享了他上个月参加阿里云闭门会时,生成式 AI 专家提到的目前大模型落地的两个最靠谱方案:一是基于大/小模型的意图识别 + 各种 Agent;二是大模型做 planning + workflow。他指出,目前公司的售前咨询 agent 就是采用了第一种方案。这为公司在未来技术发展和产品优化方面提供了有价值的参考,明确了大模型在实际应用中的可行路径。
(三)针对性微调的重要性
聂某某强调,不进行微调就无法打造好的场景化产品能力。他认为,虽然目前对接大模型能解决部分问题,但从长远来看,用户对解决问题的有效性会提出越来越高的要求。因此,公司需要认真思考后续 AI 产品的竞争力问题,包括成本的平衡。他提出,如果产品能力能够脱颖而出,在收费上是可以有溢价的。这表明,针对性的微调不仅是提升产品性能的关键手段,也是增强产品市场竞争力的重要策略。
(四)行业数据集与多语言场景的考量
王某某提到,目前公司的 embed 使用的是 OpenAI 的,主要处理语义召回,但对于肯定和否定这类问题,基本所有的 embed 都很相似,需要通过其他方式来进行区分。他还指出,embed 调用的成本相较于问答模型是很低的。目前公司的意图模型就是微调模型,而且是用大量的场景多语言语料进行训练微调。这说明,在实际应用中,单一的 emb 技术可能无法完全满足复杂的语义识别需求,需要结合其他技术手段进行综合判断。同时,多语言语料的使用也突显了在国际化业务场景下,语言多样性对意图识别模型训练的重要性。
余某某进一步阐释了公司目前采用的基于 bert 变种的微调与通常所说的大模型 SFT 的区别。他指出,前者是针对意图识别的微调,专注于提升模型在特定业务场景下的意图理解能力;而后者则是对大模型进行领域微调,通过训练调整大模型参数权重,向模型注入特定领域的知识。这表明,不同的微调策略适用于不同的应用场景和目标,需要根据具体的业务需求和技术目标来选择合适的微调方法。
李某某在讨论中提出疑问,现在的大模型在解决通用问题时,似乎 Scaling Law(规模法则)越来越弱了。他引用了 arXiv 论文中的观点,认为小模型 + 垂直领域微调 + Agent 是未来的发展方向。这一观点强调了在特定垂直领域内,通过小模型结合领域微调和智能代理(Agent),可以更有效地解决专业性问题,提高模型的实用性和准确性。这也为公司在未来技术发展和产品创新方面提供了新的思路,即在深耕特定业务领域时,可以考虑采用这种小模型 + 微调 + Agent 的组合模式,以实现更精准、更高效的意图识别和服务提供。
七、结论与下一步行动
(一)结论
经过深入讨论,与会专家达成了一系列重要共识:
- Emb 近似度方案的可行性:虽然 emb 近似度在处理语义相似但表述多样的用户话语时存在局限性,如对否定词的处理不当,但通过结合微调等技术手段,可以有效提升其在特定场景下的意图识别准确率。微调能够使模型更好地适应业务场景和用户表达习惯,弥补 emb 近似度的不足。
- 技术改进的必要性与方向:为了提高客服系统的命中率和降低成本,必须对现有技术进行改进。未来的技术发展应聚焦于建立微调能力、探索开源数据集、优化 emb 近似度方案与分类模型的协同关系,以及结合上下文信息提高识别准确性等方面。
- 成本与效益的平衡:在推进技术改进时,需要充分考虑成本与效益的平衡。虽然微调和 emb 近似度方案的实施可能会带来一定的成本增加,但从长远来看,其带来的命中率提升和用户体验改善将为公司创造更大的价值,有助于提升产品的市场竞争力和客户满意度。
(二)下一步行动
- 技术验证与优化:组织专门的技术团队,对 emb 近似度方案结合微调的效果进行深入验证。通过在实际业务场景中进行测试,评估其对意图识别准确率的具体提升程度,以及在不同场景下的适应性和稳定性。同时,持续优化现有基于 bert 变种的意图识别模型,探索更高效的训练和微调方法,提高模型的性能和响应速度。
- 数据集的探索与构建:积极寻找和评估现有的开源数据集,特别是针对客服场景和特定业务领域的高质量数据集。如果现有开源数据集无法满足需求,可以考虑与合作伙伴共同构建专属的数据集,通过数据标注和清洗等手段,确保数据的准确性和可用性,为模型训练和微调提供坚实的数据基础。
- 多语言场景的微调与支持:针对公司的国际化业务拓展需求,加大对多语言场景下意图识别模型的微调力度。研究不同语言的语义特点和表达习惯,探索适合多语言的微调策略和模型架构,确保产品在不同语言环境下的有效性和准确性,提升全球用户的使用体验。
- 产品竞争力与成本的平衡策略制定:综合考虑技术改进带来的成本增加和产品性能提升对市场竞争力的影响,制定合理的产品定价策略和成本控制措施。在确保产品质量和用户体验的前提下,通过优化资源配置、提高运营效率等方式,降低产品成本,实现产品竞争力与成本的最优平衡。
- 持续跟踪与评估:建立完善的技术改进效果评估机制,定期对实施的各项技术措施进行跟踪和评估。通过收集用户反馈、分析业务数据等手段,及时了解技术改进的实际效果和存在的问题,为后续的技术优化和产品升级提供指导依据。
1095

被折叠的 条评论
为什么被折叠?



