手搓RAG实体识别第五天

其实也不是第五天了,感觉拖了快十天,不过这个小的demo做完了,散花~

最后结果还是比较满意的,符合我的期望。不过这个是一个比较窄的领域,没有做出来一个可以泛化到其他领域也可以用流程(可能后续回进行重新修改,启动2.0版本,做一个在医疗领域较为通用的RAG识别文档流程)。

简单总结一下吧!第一步的实体识别,如果你要有强制性的名称要求的话,我感觉还是可以选择将备选名称构造成一个知识库,进行rag,然后让大模型选择而不是让大模型直接生成,在小的模型中也很实用。其实这个也可以用到知识图谱和RAG结合的时候用到,因为知识图谱中的实体名称也是较为固定的,如果想利用起来知识图谱的结构化信息,有一个较为靠谱的实体选择还是很有必要的。第二步的实体信息选取,我的做法是直接将整个文本都传给了LLM(因为我的文本其实也不是很长),这样其实有一定的弊端的,调用API接口的时候容易导致token浪费和推理时间也会变长;如果要处理较长的,例如就是从一大堆信息里面抽取一些想要的信息的话,其实还是很有必要将文档分块的,只检索相关的一些块传递给大模型。其实我刚开始也是这么做的,但是我的效果不好,可能是我分块的问题,或者是相似度匹配的算法不恰当,这个后续有需求可以再去调研一下,感觉还是很有必要去研究一下的,其它也想不到了,才疏学浅,先写到这里算了-.-*。

最后还是感谢大家的阅读和点赞,有不当的地方请大家多多指正[抱拳]。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值