word中手打公式太麻烦,试试这款软件

本文介绍了一款名为SimpleTex的软件,专为理工科学生设计,能通过截图识别公式,并在安装Mathtype插件后无缝整合到Word文档中,提高公式输入效率。只需几步操作即可完成公式转换。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在一些博文中发现一款很适合理工科学生学习日常的软件Simple Tex

这款软件可以直接截图识别公式,在安装Math type插件后可直接在word中表示出公式,识别正确率相对较高。

方法如下:

1. 在官方网站下载并注册登录该软件。

2. 打开软件,点击截屏识别

2. 粘贴图片并识别

3. 点击复制Latex

在word中点击mathtype并黏贴复制内容

直接得到公式:

4. 完成

<think>嗯,用户想用PaddleOCR识别PDF文件里的文字,然后把文本按位置写入Word文档。首先,我得理清楚整个流程的步骤。可能需要先把PDF转换成图片,因为PaddleOCR主要是处理图像的。然后,对每张图片进行OCR识别,获取文字内容和位置信息。接着,根据位置信息在Word文档里还原排版。 第一步,处理PDF转图片。Python里常用的库有PyMuPDF或者pdf2image。PyMuPDF可能更轻量,但pdf2image基于poppler,转换效果可能更好。用户可能需要安装对应的库,比如pip install pyMuPDF或者pdf2image,同时可能需要安装poppler。 接下来,使用PaddleOCR识别图片中的文字和位置。需要安装PaddleOCR,这个库依赖比较多,比如paddlepaddle。可能需要提醒用户安装时注意版本兼容性。识别后的结果包括文本框的坐标、文本内容以及置信度等信息。需要把这些信息提取出来,特别是坐标,用来在Word中定位。 然后,将识别到的内容按位置写入Word。这里需要用python-docx库来操作Word文档。难点在于如何根据坐标来排列文本。可能需要将图片的尺寸与Word文档的页面尺寸对应起来,比如A4纸的尺寸是21cm×29.7cm,转换成磅(points)的话,1cm=28.35磅,所以宽度大约是595磅,高度842磅。图片的分辨率可能会影响坐标转换,比如PDF转图片时设置的DPI,假设用户用300 DPI,可能需要将图片中的坐标转换为Word中的位置。 可能需要计算每个文本框在Word中的位置,使用绝对定位。python-docx不支持直接设置段落的位置,但可以通过表格来实现,或者使用文本框。不过更简单的方式可能是使用段落格式中的缩进和行间距,但这可能不够精确。另一种方法是创建一个表格,每个单元格对应图片中的一个区域,但这样可能不够灵活。 或许更可行的是使用python-docx的Run对象添加文本,并设置字体、位置等属性。但绝对定位可能需要使用形状(shape)或者文本框。查阅python-docx的文档,发现可以使用add_paragraph().add_run()添加文本,然后通过样式设置位置,但可能比较复杂。或者,可以将整个Word页面视为一个画布,使用文本框将每个识别到的文字块放在对应的位置。 比如,对于每个OCR结果,获取其文本框的左上角和右下角坐标,转换为Word页面中的相对位置,然后添加一个文本框,设置其位置和大小,将文本放入其中。这样可以在Word中保留原始布局。这可能需要使用python-docx的Shape或文本框功能,但python-docx的API对VML的支持有限,可能需要使用底层操作。 或者,可以考虑将PDF转换为图片,然后将图片插入到Word中,并在图片上层添加文本框,但这样Word中的文本是可选的,但可能不太方便编辑。另一种方法是调整段落的位置,通过设置左边距和首行缩进,或者制表位,但可能不够精确。 可能的问题:PDF中的文字方向、多列排版、图片中的文字环绕等复杂情况如何处理。用户可能只是需要简单的按位置排列,比如保持上下左右的顺序,或者按照坐标的Y轴排序,按行排列。比如,将识别到的所有文本框按Y坐标排序,然后按行处理,同一行内的按X坐标排列,这样在Word中按顺序写入,可能近似原布局。 但用户明确要求“按照识别位置写入word”,可能需要精确的绝对定位。这时候可能需要使用Word的文本框功能,每个识别到的文本块作为一个文本框,设置其位置和大小。 具体步骤可能如下: 1. 将PDF每一页转换为图片。 2. 对每张图片使用PaddleOCR识别,得到每个文本框的坐标(左上、右上等点)。 3. 计算每个文本框在Word页面中的位置,需要将图片的像素坐标转换为Word的EMU单位(English Metric Units)或磅。 4. 在Word文档中添加文本框,设置其位置和内容。 代码实现的大致流程: 安装所需的库:paddleocr,python-docx,PyMuPDF或pdf2image。 首先,处理PDF转图片。例如,使用PyMuPDF: import fitz # PyMuPDF pdf_path = "input.pdf" doc = fitz.open(pdf_path) for page_num in range(len(doc)): page = doc.load_page(page_num) pix = page.get_pixmap(dpi=300) img_path = f"page_{page_num}.png" pix.save(img_path) 然后,使用PaddleOCR识别图片: from paddleocr import PaddleOCR ocr = PaddleOCR(use_angle_cls=True, lang='ch') results = [] for img_path in images: result = ocr.ocr(img_path, cls=True) results.append(result) 接下来,处理识别结果,获取每个文本框的坐标和文本。PaddleOCR返回的结果结构是,每个元素是一个列表,包含检测框的坐标、识别文本和置信度。 然后,创建Word文档,并设置页面大小,假设为A4: from docx import Document from docx.shared import Pt, Inches from docx.enum.section import WD_ORIENT doc = Document() section = doc.sections[0] section.page_width = Inches(8.27) # 210mm section.page_height = Inches(11.69) # 297mm 对于每个页面,将图片插入到Word中作为背景可能有助于定位,但用户可能需要纯文本。或者不插入图片,直接放置文本框。 然后,对于每个OCR结果中的文本框: for page_num, result in enumerate(results): for line in result: box = line[0] # 检测框的四个点坐标,例如[[x1,y1], [x2,y2], [x3,y3], [x4,y4]] text = line[1][0] # 识别到的文本 confidence = line[1][1] # 置信度 # 将box的坐标转换为Word页面的位置 # 假设图片的DPI是300,图片的宽度是A4纸的宽度,即8.27英寸,换算成像素是8.27*300=2481像素 # Word页面的宽度是8.27英寸,即595磅(因为 1英寸=72磅,8.27*72≈595) # 因此,图片中的x坐标转换为Word中的x位置:x_pixel / image_width_pixels * page_width_pt image_width_pixels = 2481 # 根据实际图片尺寸调整 image_height_pixels = 3508 # A4 300dpi的高度是11.69*300≈3507 page_width_pt = 595 page_height_pt = 842 # 获取文本框的左上角坐标 x1, y1 = box[0] # 转换为Word中的位置,注意图片可能不是完全填满页面,这里假设图片与页面尺寸一致 x_position = x1 / image_width_pixels * page_width_pt y_position = y1 / image_height_pixels * page_height_pt # 在Word中添加文本框 paragraph = doc.add_paragraph() run = paragraph.add_run(text) # 需要设置绝对位置,但python-docx可能不支持直接设置,可能需要使用Shape # 或者使用文本框 # 参考:https://github.com/python-openxml/python-docx/issues/193 # 可能需要使用VML的方式添加文本框,但比较复杂 这里遇到一个问题:python-docx库本身不支持直接添加绝对定位的文本框。可能需要使用底层的_lxml元素操作来创建文本框。或者寻找其他方法。 例如,可以使用以下方式添加文本框: from docx.oxml.shared import OxmlElement from docx.oxml.ns import qn def create_text_box(doc, left, top, width, height, text): # 创建文本框 textbox = OxmlElement('v:shape') textbox.set(qn('id'), '文本框') textbox.set('type', '#_x0000_t202') textbox.set('style', 'position:absolute;margin-left:{}pt;margin-top:{}pt;width:{}pt;height:{}pt;z-index:1;visibility:visible;mso-wrap-style:square;mso-width-percent:0;mso-height-percent:0;mso-position-horizontal:absolute;mso-position-vertical:absolute'.format(left, top, width, height)) textbox.set('wrapcoords', '21600,21600') text_path = OxmlElement('v:textbox') textbox.append(text_path) # 添加文本 text_frame = OxmlElement('w:txbxContent') text_path.append(text_frame) p = OxmlElement('w:p') text_frame.append(p) r = OxmlElement('w:r') p.append(r) t = OxmlElement('w:t') t.text = text r.append(t) # 将文本框添加到段落 paragraph = doc.add_paragraph() paragraph._p.append(textbox) return paragraph 但这种方法需要深入理解Word的XML结构,可能不够稳定,不同版本的Word可能有兼容性问题。 或者,可以改用RTF格式或者其他方式,但用户要求用python-docx生成Word文档。 另一种思路是,使用表格来模拟位置。例如,将页面划分为细小的单元格,然后将文本放入对应的单元格中。但这样可能会产生很大的表格,影响性能,且不够精确。 看来,这个问题的主要难点在于如何在Word文档中精确放置文本。如果用户对位置的要求不是特别精确,可以按大致顺序排列,比如按Y坐标排序,然后按行排列。但用户明确要求按识别位置写入,所以可能需要绝对定位。 因此,可能需要使用VML的方式在Word中添加文本框,这需要复杂的Oxml操作。或者,可以生成一个浮动的文本框,设置其位置。 参考python-docx的issue和文档,可能需要用以下方式: 添加一个形状,并设置其位置: from docx.enum.shape import MSO_SHAPE from docx.shared import Pt shape = doc.add_shape(MSO_SHAPE.RECTANGLE, left=Pt(x_position), top=Pt(y_position), width=Pt(width), height=Pt(height)) shape.text = text 但测试发现,add_shape方法在添加形状到段落时,可能无法精确定位,或者在页面上的位置不正确,因为默认可能相对于段落的位置。或者需要将形状添加到页眉,但这会影响整个页面。 另一种方法是将形状添加到页眉部分,这样可以使其出现在页面的绝对位置: section = doc.sections[0] header = section.header shape = header.add_shape( MSO_SHAPE.RECTANGLE, left=Pt(x_position), top=Pt(y_position), width=Pt(text_width), height=Pt(text_height) ) shape.text = text 但这样每个文本框都会被添加到页眉,导致所有页面都有相同的内容,这显然不可行。 所以,可能必须为每一页创建一个新的Section,并在该Section的页眉中添加形状。但这样会使文档有多个sections,每个页面一个,处理起来比较麻烦。 或者,考虑将整个文档视为一个连续的流,但这样不同页面的内容会堆积在第一个页面上,无法分页。 看来,使用python-docx实现绝对定位的文本框在指定页面位置是比较困难的。可能需要寻找其他库,比如使用comtypes调用Word的COM接口,但这仅限于Windows环境,并且需要安装Word。 如果用户的环境允许,可以考虑使用COM,但代码会更复杂,且跨平台性差。但用户可能希望用纯Python的解决方案。 综上,可能的解决方案是: 1. PDF转图片,每页一张图片。 2. 对每张图片使用PaddleOCR识别,得到文本框和文本。 3. 在Word文档中,为每个页面创建一个新的节(section),设置页面大小和方向。 4. 对于每个文本框,计算其在Word页面中的位置,使用VML添加绝对定位的文本框。 但如何在python-docx中为每个页面创建节,并在其中添加元素? 或者,可以将所有文本框添加到同一个节中,但跨页时位置会混乱。因此,可能需要每个页面对应一个节,并且在节中设置页眉,添加文本框到页眉,这样每个页面的页眉不同。但页眉通常用于重复内容,可能不太合适,但可以尝试。 代码示例: from docx import Document from docx.shared import Pt, Inches from docx.oxml import OxmlElement from docx.oxml.ns import qn def add_text_box_to_header(section, left, top, width, height, text): header = section.header paragraph = header.paragraphs[0] if header.paragraphs else header.add_paragraph() # 创建VML形状 shape = OxmlElement('v:shape') shape.set(qn('id'), '文本框') shape.set('type', '#_x0000_t202') # 文本框类型 shape.set('style', 'position:absolute;margin-left:{0}pt;margin-top:{1}pt;width:{2}pt;height:{3}pt;z-index:1;visibility:visible;mso-wrap-style:square;mso-width-percent:0;mso-height-percent:0;mso-position-horizontal:absolute;mso-position-vertical:absolute'.format(left, top, width, height)) textbox = OxmlElement('v:textbox') textbox.set(qn('style'), 'mso-fit-shape-to-text:true') text_content = OxmlElement('w:txbxContent') p = OxmlElement('w:p') r = OxmlElement('w:r') t = OxmlElement('w:t') t.text = text r.append(t) p.append(r) text_content.append(p) textbox.append(text_content) shape.append(textbox) paragraph._p.append(shape) # 创建文档 doc = Document() # 处理每一页 for page_num in range(total_pages): # 添加新节(每页一个节) if page_num > 0: doc.add_section() section = doc.sections[page_num] section.page_width = Inches(8.27) section.page_height = Inches(11.69) # 计算该页的所有文本框位置,并添加到页眉 for box_info in page_boxes: left = box_info['left_pt'] top = box_info['top_pt'] width = box_info['width_pt'] height = box_info['height_pt'] text = box_info['text'] add_text_box_to_header(section, left, top, width, height, text) 这样,每个页面的页眉中添加了文本框,位置相对于该页面的顶部和左侧。需要注意的是,页眉通常会有默认的边距,可能需要调整section.header_distance来减少边距,或者将left和top计算时考虑边距。 这可能会覆盖页眉的原有内容,但假设用户不需要保留页眉的其他内容,这可能可行。 此外,这种方法可能会导致文本框在打印时出现在页眉区域,但可能满足用户的需求。 总结代码步骤: 1. 转换PDF为图片,保持与Word页面相同的尺寸比例,以便坐标转换准确。 2. 使用PaddleOCR识别每张图片,获取文本框坐标和文本。 3. 转换文本框坐标为Word页面中的位置(以磅为单位)。 4. 在Word中为每个页面创建新节,并在页眉中添加绝对定位的文本框,包含识别到的文本。 需要注意的是,坐标转换的准确性取决于PDF转图片时的DPI设置和Word页面的尺寸是否匹配。例如,如果PDF页面是A4大小,转换为300 DPI的图片,尺寸应为2480×3508像素(8.27×11.69英寸 * 300)。在Word中,页面宽度为8.27英寸,即595磅,因此每像素对应的磅数为595 / 2480 ≈ 0.24磅/像素。这样,图片中的x坐标乘以0.24即可得到Word中的位置。 另外,文本框的宽度和高度也可以根据检测框的宽度和高度转换而来,但可能不需要特别精确,除非用户需要保留文字块的大小。 可能还需要考虑文本框的旋转,但PaddleOCR的检测框坐标是四边形,可能需要计算旋转角度,这会增加复杂度。如果用户的需求只是简单的水平文本,可能可以忽略旋转,用左上角坐标近似定位。 此外,文本的字体、大小可能需要根据原始PDF中的样式进行调整,但OCR可能无法获取字体信息,所以可能需要设置默认字体。 综上所述,完整的代码示例可能如下(注意需要处理多页面、坐标转换、以及VML文本框的添加):</think>以下为实现该功能的详细步骤及代码示例: $$注意$$ 1. 需要安装依赖库:`pip install paddlepaddle paddleocr python-docx PyMuPDF` 2. PDF转图片依赖系统组件:Windows需安装poppler并添加环境变量 3. 坐标转换存在误差需根据实际测试调整 ```python import fitz # PyMuPDF from paddleocr import PaddleOCR from docx import Document from docx.shared import Pt, Inches from docx.oxml import OxmlElement from docx.oxml.ns import qn def pdf_to_images(pdf_path, dpi=300): """将PDF每页转为PNG图像""" doc = fitz.open(pdf_path) img_paths = [] for page_num in range(len(doc)): page = doc.load_page(page_num) pix = page.get_pixmap(dpi=dpi) img_path = f"page_{page_num}.png" pix.save(img_path) img_paths.append(img_path) return img_paths def calculate_position(box, page_size_pt, img_size_pixels): """计算文本框在Word中的绝对位置(单位:磅)""" x1, y1 = box[0][0], box[0][1] x_ratio = x1 / img_size_pixels[0] y_ratio = y1 / img_size_pixels[1] left = x_ratio * page_size_pt[0] top = y_ratio * page_size_pt[1] return left, top def add_text_box(section, text, left_pt, top_pt): """在Word的Section中添加绝对定位文本框""" header = section.header paragraph = header.paragraphs[0] if header.paragraphs else header.add_paragraph() # 创建VML文本框 textbox = OxmlElement('v:shape') textbox.set(qn('o:spid'), '_x0000_s1025') # 设置唯一ID textbox.set('style', f'position:absolute;margin-left:{left_pt}pt;margin-top:{top_pt}pt;width:100pt;height:20pt;z-index:1') textbox.set('type', '#_x0000_t202') # 文本框内容 txbxContent = OxmlElement('v:textbox') txbxContent.set('style', 'mso-fit-shape-to-text:true') content = OxmlElement('w:txbxContent') # 添加文字段落 p = OxmlElement('w:p') r = OxmlElement('w:r') t = OxmlElement('w:t') t.text = text r.append(t) p.append(r) content.append(p) txbxContent.append(content) textbox.append(txbxContent) paragraph._p.append(textbox) def main(pdf_path, output_docx): # Step 1: PDF转图片 img_paths = pdf_to_images(pdf_path) # Step 2: 初始化OCR ocr = PaddleOCR(use_angle_cls=True, lang='ch') # Step 3: 创建Word文档 doc = Document() page_width_pt = 595 # A4纸宽度(8.27英寸=595磅) page_height_pt = 842 # A4纸高度(11.69英寸=842磅) for idx, img_path in enumerate(img_paths): # 添加新页(Section) if idx > 0: doc.add_section() section = doc.sections[idx] section.page_width = Inches(8.27) section.page_height = Inches(11.69) # Step 4: 执行OCR result = ocr.ocr(img_path, cls=True)[0] # Step 5: 处理识别结果 img_size = (section.page_width.inches * 300, # 假设DPI=300 section.page_height.inches * 300) for line in result: box = line[0] text = line[1][0] # 计算位置 left_pt, top_pt = calculate_position( box, (page_width_pt, page_height_pt), img_size ) # 添加文本框到Word add_text_box(section, text, left_pt, top_pt) # 保存文档 doc.save(output_docx) if __name__ == "__main__": main("input.pdf", "output.docx") ``` ### 代码说明 $$步骤分解$$ 1. **PDF转图片**:使用`PyMuPDF`将每页转换为300dpi的PNG图像 $$注意事项$$ - 需要根据实际PDF尺寸调整`img_size`计算 2. **OCR识别**:PaddleOCR识别图片中的文字和位置 $$技术细节$$ - `use_angle_cls=True`启用文字方向检测 - `lang='ch'`指定中英文识别 3. **坐标转换**:将像素坐标转换为Word页面磅值 $$公式$$ $$ left_{pt} = \frac{x_{pixel}}{imgWidth_{pixel}} \times pageWidth_{pt} $$ 4. **Word写入**:通过VML实现绝对定位文本框 $$限制$$ - 需要关闭Word的兼容模式 - 文本框高度需手动估算 ### 常见问题处理 1. **文字重叠**:调整`add_text_box`中的`width`和`height`参数 2. **排版偏差**:检查PDF转图片时的DPI设置 3. **性能优化**:批量处理时建议限制并发线程数 建议实际测试时先处理单页PDF验证定位准确性,再扩展至完整文档。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Winstoncoder

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值