手搓RAG实体识别第二天

今天第二天,因为调用的都是大模型的api和huggingface的一些开源模型,代码已经都写完了。

项目差不多分为两步!

第一部分是写提示词指导大模型去文档中提取关键词,这一步中已经明显的感觉到了大模型幻觉问题,已经给了很明显的提示,还是不能较好的完成需求。总会出现一些答非所问的东西

第二部分是用的rag流程,将文档按照大标题分块,然后向量化,然后利用提取的实体去检索向量数据库,去匹配相关性高的句子,然后提取对应实体参数。这一步中遇到两个问题,第一个就是第一步中的实体不准确;第二个是实体和句子不是很相关。

总体来说第一天跑的效果不是很理想!

接下来计划优化遇到的问题。

在第一步中也使用RAG技术,构建一个需要识别的本体库,然后提取文档中相关的片段去本体库中检索,找到候选集之后让大模型去选,我感觉会比让大模型生成要效果好一点,做分类可以避免大模型部分幻觉问题。

在第二步中的话,暂时想的是优化一下相似度匹配的算法吧,再换一些分块方式,进一步看看后续优化情况。

今天任务大致汇报这些,这是我个人的一些想法!欢迎各位大佬,前辈批评指正。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值