今天第二天,因为调用的都是大模型的api和huggingface的一些开源模型,代码已经都写完了。
项目差不多分为两步!
第一部分是写提示词指导大模型去文档中提取关键词,这一步中已经明显的感觉到了大模型幻觉问题,已经给了很明显的提示,还是不能较好的完成需求。总会出现一些答非所问的东西
第二部分是用的rag流程,将文档按照大标题分块,然后向量化,然后利用提取的实体去检索向量数据库,去匹配相关性高的句子,然后提取对应实体参数。这一步中遇到两个问题,第一个就是第一步中的实体不准确;第二个是实体和句子不是很相关。
总体来说第一天跑的效果不是很理想!
接下来计划优化遇到的问题。
在第一步中也使用RAG技术,构建一个需要识别的本体库,然后提取文档中相关的片段去本体库中检索,找到候选集之后让大模型去选,我感觉会比让大模型生成要效果好一点,做分类可以避免大模型部分幻觉问题。
在第二步中的话,暂时想的是优化一下相似度匹配的算法吧,再换一些分块方式,进一步看看后续优化情况。
今天任务大致汇报这些,这是我个人的一些想法!欢迎各位大佬,前辈批评指正。
421

被折叠的 条评论
为什么被折叠?



