自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 手搓RAG实体识别第五天

本文总结了作者完成的一个小demo项目经验。该项目聚焦于医疗领域的RAG文档识别流程,主要涉及实体识别和实体信息提取两个关键步骤。在实体识别方面,建议构建知识库辅助大模型选择而非直接生成;在信息提取环节,作者发现直接传递全文虽简单但存在token浪费问题,而分块处理效果不佳可能与分块方式或相似度算法有关。文章最后指出未来可优化方向包括开发通用医疗RAG流程和改进长文档处理方法,并感谢读者指正。

2025-09-14 22:29:44 217

原创 手搓RAG实体识别第四天

本文探讨了优化大模型信息处理流程的方法。

2025-09-12 09:04:18 90

原创 手搓RAG实体识别第三天

作者分享了实体识别优化方案,通过构建向量化的本体库,结合检索增强技术,采用多步处理流程(初步抽取→语义匹配→分类筛选)来减少大模型的幻觉问题。该方法利用大模型的分类能力(yes/no/unknown)提高准确性,并对常见错误进行针对性优化。目前代码开发中,即将测试效果。作者谦虚表示方案尚不成熟,欢迎指正。

2025-09-08 23:11:36 602

原创 手搓RAG实体识别第二天

已完成基于大模型API和开源模型的代码开发,项目分为关键词提取和RAG流程两部分。在关键词提取阶段遇到大模型幻觉问题,提示效果不理想;RAG流程中则存在实体不准确和匹配相关性低的问题。后续计划优化:1)在关键词提取中引入RAG技术构建本体库,改生成式为分类式;2)优化相似度算法和分块方式。当前效果未达预期,欢迎提出改进建议。

2025-09-05 23:05:32 204

原创 手搓RAG文档实体识别全流程

先放个勾子,后面陆续更新!

2025-09-04 19:17:17 120

原创 学生白嫖阿里云一年服务器!!!

学生党如何白嫖一年阿里云服务器,以及如何选择配置。

2024-12-29 15:46:56 1218

原创 将本地.xlsx文件上传到服务器数据库

本地xlsx文件存入服务器数据库。基本上都是先将文件转为.csv文件,然后利用scp读入到服务器,最后在数据库中建表,和运行脚本读入。

2024-11-06 09:53:48 665

提示
确定要删除当前文章?
取消 删除