ChatBI的相关学习

常见的解析服务,第一个就是PDF文件解析,然后就是OCR,对图片进行文字提取,除此之外也会涉及到一些表格,如PDF里面的结构化的表格,提取会容易一些,否则涉及到一些表格单元格识别分割,还有单元格关系的重建,也会涉及到一些页眉、页脚或者目录版面分割等任务,会涉及到基于文本消除歧义和进行基于自然语言下的纠错。

下一步进入NLP域抽取服务,大的层面上会分成文本的分类,然后对这些公司等实体做识别,也会做一些关系抽取、实体消歧。

抽取完导入到开发库,在这个过程中会出现在解析阶段或者抽取阶段有一些错误要修订,需要一些数据加工人员来进行人工操作处理,极端情况下可能某些数据质量很差,就需要全程重做,从爬虫爬下来数据之后的人工处理和入库。

入库后为了保证数据质量,会有一些风控或者数据集合人员持续地在开发库和产品库里做一些相应的数据集合抽检,发现问题反馈或者直接修正。

RAG是一个放大模型的能力的作用,它就是大模型。如一个文档如果不进行RAG的增强,直接提问可能也能问出一些东西,但是相对准确率可能不高,可能换问题比较严重。如果用RAG的方法,对它做切片,做向量化,可能效果上就会更好,相当于是把大模型的能力增强,但Agent一定程度上相当于丰富大模型的能力,因为大模型其实现在狭义上是大语言模型,在自然语言里面可能有比较强的能力,但是要扩展到自然语言之外,如一个常见的场景,就是订机票、订酒店,那它就不是一个单纯的NLP的任务,用agent的方式,可以用大模型的编排能力,工具助手来实现一个丰富大模型的能力的目的。

外网实时得到的一些数据,采集后对数据先做embedding

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值