行业落地分享:大模型 RAG 难点与创新应用

最近这一两周不少互联网公司都已经开始秋招面试了

不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。

最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。

《AIGC 面试宝典》圈粉无数!
《大模型面试宝典》(2024版) 发布!

喜欢本文记得收藏、关注、点赞。更多实战和面试交流,文末加入我们星球


与常规的系统化内容分享不同,我们今天将聚焦于那些在实践中发现的难点和创新应用。我们相信,这些真实的案例和经验,能够给大家带来不同角度的思考和启发。

图片

难点:文件解析

在落地实施中,我们遇到的第一个难点是文件解析。我们从今年年初开始,在许多企业的落地实施中发现,尽管我们自信能够解析大多数文件,但在实践中,我们遇到了很多我们甚至从未见过的文件类型。

图片

在文件解析的挑战中,老旧文件的解析尤其突出。我们发现,尽管市面上的许多软件声称支持DOC格式,但它们往往不支持DOCX,这在国企和一些特定场景中非常常见。我们遇到了一些不完整的文件,这些文件的解析对我们来说是一个必须大力解决的问题。

难点:PDF 表格解析

另一个挑战是PDF表格的解析,这在金融行业、标准化工业领域等是非常刚需的。表格解析的难点在于,它需要精确地识别和处理表格数据,这对于自动化处理和数据分析至关重要。

图片

OCR(光学字符识别)技术在处理纯图片文件时相对简单,但当图片与文字混合时,判断何时启动OCR成为一个挑战。我们需要开发智能的算法来识别何时需要启动OCR,以确保文本的准确识别。

难点:结构化数据融合

在索引过程中,我们不仅依靠大模型的能力,还进行了一系列的其他工作,以提高检索的准确性和效率。这包括:

图片

图片

  • 元数据处理:在上传文件的同时,我们自动处理文件的元数据,包括文件名称、属性信息和内容中的标题等,以提取实体和关系。

  • 意图识别:我们使用基于BERT的NER模型来理解用户的查询意图,并进行拆分和解析,以提高检索的准确性。

在提高检索和问答系统的效果方面,我们采用了Rerank技术,这是一种在多个环节中都能显著提升结果相关性和准确性的技术。

图片

  • HNSW和交叉编码验证:我们使用HNSW(高维空间中的最近邻搜索)和交叉编码验证来提高检索的精度。

  • 密度函数:通过使用密度函数,我们能够舍弃那些相关度较低的结果,从而提高检索质量。

在问答系统中,每个答案都会默认显示相关的原文。但是,原文的显示并不一定与答案的匹配度完全一致。为了解决这个问题,我们在大模型给出最终答案后,再次使用Rerank技术进行比对,确保显示的原文与答案高度匹配。

场景 1:金融研报的挑战与创新

在金融行业,制作研报是一项耗时且复杂的过程。传统上,投资机构会派遣团队,花费数周时间研读数百份文件,以形成对一家公司的深入分析。这个过程不仅耗时,而且需要大量的人力资源。

图片

  • 快速处理大量文件:用户可以将数百份文件一次性导入TorchV Assistant。

  • 直接提问,获得最佳答案:通过自然语言处理技术,用户可以直接向系统提问,如“这家公司最近3年的复合增长率是多少?”系统将从文件中提取最准确的答案。

  • 原文比对:系统提供原文比对功能,确保用户可以验证答案的准确性。

  • 内容快速生成:用户可以将答案快速整合到编辑器中,系统还能帮助生成图表,极大地加快了研报的草稿制作。

场景 2:零售行业的挑战与创新

在零售行业,面对成千上万的产品和复杂的客户需求,如何快速、准确地为客户提供满意的服务是一个巨大的挑战。

图片

TorchV Doraemon,就像客户身边的哆啦A梦,能够快速理解复杂的客户需求,并从成千上万的产品中找到最合适的解决方案。以下是我们如何通过TorchV Doraemon改变游戏规则:

  • 快速理解客户需求:通过结合RAG(Retrieval-Augmented Generation)和Function-call,TorchV Doraemon能够快速理解产品的说明书和数据库,为客户提供最合适的产品推荐。

  • 简化导购流程:对于导购员来说,TorchV Doraemon能够识别出最合适的几款产品,大大简化了导购流程。

  • 多样的交互形式:TorchV Doraemon不仅仅支持问答形式,还可以通过图片和其他互动方式与客户进行交流。

场景 3:规则审批的挑战与创新

随着业务量的增加,合同和项目审批的工作量也随之增加。传统的审批流程往往耗时且效率低下,特别是在法务审核合同时,反复的修改和审核过程会浪费大量时间。

图片

TorchV Comparison,基于规则和上下文的审批系统,能够帮助企业快速完成合同和项目的预审工作。以下是我们如何通过TorchV Comparison改变游戏规则:

  • 合同预审:业务部门可以直接提交合同,系统会根据预设的规则(如必填项、歧义词分析、权利义务对等、合法合规等)进行自动审核。

  • 项目预审:对于项目评审,系统也可以根据每个项目的特定规则进行预审,大大提高了审批的准确性和效率。

  • 元数据的利用:系统利用元数据提高审批的精确度,确保审批结果更加可靠。

实践中的挑战与思考

  1. 功能小而精:我们追求的是小而精的功能,而非大而全。这意味着我们需要明确目标,量化指标,例如提高销售量、缩短合同评审时间等,这些都是可以明确衡量的成果。

  2. 高质量:在技术实现上,我们需要确保高质量。这涉及到在当前技术环境下,对客户需求的合理评估,以及对技术能力的准确把握。

  3. 高价值:我们关注的是为客户带来的实际价值。如果一个功能背后的目标具有高价值,那么这将是我们的首要任务。

图片

在实际的落地过程中,我们发现这个过程并不像想象中的那么“性感”,而是充满了挑战。从与客户交流确认方案,到POC(Proof of Concept,概念验证),再到部署实施,以及后续的培训和陪跑,这是一个漫长而复杂的过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值