pdf区域信息提取改善

PDF区域文本提取工具_小小明-代码实体的博客-优快云博客_有直接从pdf固定区域中提取文字的程序吗  我之前看过一篇博客,详细介绍了批量pdf区域信息提取的代码,博客里面有软件下载地址。

使用了一段时间后有点小问题需要修改一下,我把我改善的地方发表一下。

首先可能是库更新了pageCount需要修改为page_count,这时候软件已经能跑起来了。

原来pdf划区域时只能从左上角到右下角,从左下角到右上角就不行,修改一点代码,怎么划区域都好使了。下面把修改区域的代码放出来,修改了两个def模块的代码。

    def OnLeftButtonEvent(self, event):
        if event.LeftDown():
            self.x, self.y = event.GetPosition()
            self.rects.append([self.x, self.y, 0, 0])
        elif event.Dragging():
            x, y = event.GetPosition()
            self.rects[-1][2] = x - self.x
            self.rects[-1][3] = y - self.y
            self.DoDrawing(-1)
        elif event.LeftUp():
            print(self.rects)
            if -5 < self.rects[-1][2] < 5 or -5 < self.rects[-1][3] < 5:
                self.rects.pop()
            else:
                self.parent.SetTitle(self.path + "|" + self.extract_pdf_text())
    def extract_pdf_text(self, page=None, rect=None):
        if page is None:
            page = self.pdfDoc[self.i]
        if rect is None:
            rect = self.rects[-1]
        a, b, c, d = rect
        min_x = min(a, a + c)
        max_x = max(a, a + c)
        min_y = min(b, b + d)
        max_y = max(b, b + d)
        clip = fitz.Rect(min_x, min_y, max_x , max_y)
        text = page.get_text(clip=clip).strip()
        return text

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

国服小闲鱼请战

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值