一些AIGC大模型在内容识别方面需求的开发流程、优化技巧、与此类需求的注意事项

Vzhangs

已于 2024-09-09 10:56:52 修改

阅读量318

点赞数 4

文章标签： AIGC 人工智能

于 2024-09-09 10:55:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42277430/article/details/141644872

版权

背景

工作中接到一个任务，需要识别一些文件扫描件，并利用大模型从中提取某些信息。
工作流为 OCR -> 大模型。
做完后，有一些感悟和经验如下：

需求评审注意事项

与传统前后端开发不同的是，此类需求一定要提前确定好要求的覆盖率和准确率，并在小样本里进行demo开发，评估其可行性和难度。否则交付时极易扯皮。
约定好每次迭代需要达到的覆盖率和准确率，此类应用基本不可能一蹴而就，上线即完美。需要多次迭代才能达到理想效果。

优化技巧

OCR的结果最好脱敏后直接落入数据库，OCR是一个耗时耗力耗钱的过程，并且技术基本成熟，很难迭代调整。将OCR的结果存入数据库，以便大模型提取时重复迭代。
如果要让大模型从文件中提取多个类别的内容，最好每个类别分别写提示词并且让大模型提取。
若大模型未提取到所需要的内容，可以在message中添加对话记录，让他重试一遍，但是注意不要重试过多次，1次重试为佳。重试过多次容易引发大模型幻觉。
多个大模型分别提取内容，互相评分选优
每次迭代大模型提取的结果落新表，以便回滚结果，并方便读写分别在不同迭代中进行。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。