PDF区域文本提取工具_小小明-代码实体的博客-优快云博客_有直接从pdf固定区域中提取文字的程序吗 我之前看过一篇博客,详细介绍了批量pdf区域信息提取的代码,博客里面有软件下载地址。
使用了一段时间后有点小问题需要修改一下,我把我改善的地方发表一下。
首先可能是库更新了pageCount需要修改为page_count,这时候软件已经能跑起来了。
原来pdf划区域时只能从左上角到右下角,从左下角到右上角就不行,修改一点代码,怎么划区域都好使了。下面把修改区域的代码放出来,修改了两个def模块的代码。
def OnLeftButtonEvent(self, event):
if event.LeftDown():
self.x, self.y = event.GetPosition()
self.rects.append([self.x, self.y, 0, 0])
elif event.Dragging():
x, y = event.GetPosition()
self.rects[-1][2] = x - self.x
self.rects[-1][3] = y - self.y
self.DoDrawing(-1)
elif event.LeftUp():
print(self.rects)
if -5 < self.rects[-1][2] < 5 or -5 < self.rects[-1][3] < 5:
self.rects.pop()
else:
self.parent.SetTitle(self.path + "|" + self.extract_pdf_text())
def extract_pdf_text(self, page=None, rect=None):
if page is None:
page = self.pdfDoc[self.i]
if rect is None:
rect = self.rects[-1]
a, b, c, d = rect
min_x = min(a, a + c)
max_x = max(a, a + c)
min_y = min(b, b + d)
max_y = max(b, b + d)
clip = fitz.Rect(min_x, min_y, max_x , max_y)
text = page.get_text(clip=clip).strip()
return text
2818

被折叠的 条评论
为什么被折叠?



