PDF中识别文字和表格时,表格的内容不能够很好的输出,这种直接识别PDF的方法容易造成脏数据,对后续的向量化以及检索容易造成一定的误差,因此需要将这种数据进行已改写;
目前,主流的方法如下所示:
- 将PDF转换成为图片;
- 利用OCR技术识别图片的内容;(这样可以识别表格的内容,不引入表格)
- 获取文本内容,进行向量化,从而进行后续的工作;
PDF中识别文字和表格时,表格的内容不能够很好的输出,这种直接识别PDF的方法容易造成脏数据,对后续的向量化以及检索容易造成一定的误差,因此需要将这种数据进行已改写;
目前,主流的方法如下所示: