pdf区域信息提取改善

最新推荐文章于 2025-12-22 17:36:07 发布

原创最新推荐文章于 2025-12-22 17:36:07 发布 · 228 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pdf

自动化办公专栏收录该内容

9 篇文章

订阅专栏

PDF区域文本提取工具_小小明-代码实体的博客-优快云博客_有直接从pdf固定区域中提取文字的程序吗我之前看过一篇博客，详细介绍了批量pdf区域信息提取的代码，博客里面有软件下载地址。

使用了一段时间后有点小问题需要修改一下，我把我改善的地方发表一下。

首先可能是库更新了pageCount需要修改为page_count，这时候软件已经能跑起来了。

原来pdf划区域时只能从左上角到右下角，从左下角到右上角就不行，修改一点代码，怎么划区域都好使了。下面把修改区域的代码放出来，修改了两个def模块的代码。

    def OnLeftButtonEvent(self, event):
        if event.LeftDown():
            self.x, self.y = event.GetPosition()
            self.rects.append([self.x, self.y, 0, 0])
        elif event.Dragging():
            x, y = event.GetPosition()
            self.rects[-1][2] = x - self.x
            self.rects[-1][3] = y - self.y
            self.DoDrawing(-1)
        elif event.LeftUp():
            print(self.rects)
            if -5 < self.rects[-1][2] < 5 or -5 < self.rects[-1][3] < 5:
                self.rects.pop()
            else:
                self.parent.SetTitle(self.path + "|" + self.extract_pdf_text())

    def extract_pdf_text(self, page=None, rect=None):
        if page is None:
            page = self.pdfDoc[self.i]
        if rect is None:
            rect = self.rects[-1]
        a, b, c, d = rect
        min_x = min(a, a + c)
        max_x = max(a, a + c)
        min_y = min(b, b + d)
        max_y = max(b, b + d)
        clip = fitz.Rect(min_x, min_y, max_x , max_y)
        text = page.get_text(clip=clip).strip()
        return text