RAG时如何处理结构化数据？

Jacob_AI

于 2025-01-14 10:01:37 发布

阅读量183

点赞数 1

文章标签： AIGC 人工智能 python embedding

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/cancer_s/article/details/145131245

版权

PDF中识别文字和表格时，表格的内容不能够很好的输出，这种直接识别PDF的方法容易造成脏数据，对后续的向量化以及检索容易造成一定的误差，因此需要将这种数据进行已改写；

在这里插入图片描述

目前，主流的方法如下所示：

将PDF转换成为图片；
利用OCR技术识别图片的内容；（这样可以识别表格的内容，不引入表格）
获取文本内容，进行向量化，从而进行后续的工作；

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。