原创 手搓RAG实体识别第五天
本文总结了作者完成的一个小demo项目经验。该项目聚焦于医疗领域的RAG文档识别流程,主要涉及实体识别和实体信息提取两个关键步骤。在实体识别方面,建议构建知识库辅助大模型选择而非直接生成;在信息提取环节,作者发现直接传递全文虽简单但存在token浪费问题,而分块处理效果不佳可能与分块方式或相似度算法有关。文章最后指出未来可优化方向包括开发通用医疗RAG流程和改进长文档处理方法,并感谢读者指正。
2025-09-14 22:29:44
217
原创 手搓RAG实体识别第三天
作者分享了实体识别优化方案,通过构建向量化的本体库,结合检索增强技术,采用多步处理流程(初步抽取→语义匹配→分类筛选)来减少大模型的幻觉问题。该方法利用大模型的分类能力(yes/no/unknown)提高准确性,并对常见错误进行针对性优化。目前代码开发中,即将测试效果。作者谦虚表示方案尚不成熟,欢迎指正。
2025-09-08 23:11:36
602
原创 手搓RAG实体识别第二天
已完成基于大模型API和开源模型的代码开发,项目分为关键词提取和RAG流程两部分。在关键词提取阶段遇到大模型幻觉问题,提示效果不理想;RAG流程中则存在实体不准确和匹配相关性低的问题。后续计划优化:1)在关键词提取中引入RAG技术构建本体库,改生成式为分类式;2)优化相似度算法和分块方式。当前效果未达预期,欢迎提出改进建议。
2025-09-05 23:05:32
204
原创 将本地.xlsx文件上传到服务器数据库
本地xlsx文件存入服务器数据库。基本上都是先将文件转为.csv文件,然后利用scp读入到服务器,最后在数据库中建表,和运行脚本读入。
2024-11-06 09:53:48
665
RSS订阅