OCR之论文笔记TrOCR

TrOCR是一种端到端的OCR方法,使用预训练的图像Transformer和文本Transformer模型,融合Transformer架构处理图像理解和词块级文本生成。模型在大规模合成数据上预训练,人类标注数据集上微调,实验显示TrOCR在多个OCR任务上超越当前SOTA。TrOCR模型和代码已在GitHub公开。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >



TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

一. 简介

发表:CVPR2022
机构:微软
代码:https://github.com/microsoft/unilm/tree/master/trocr

摘要:
Text recognition is a long standing-research problem for document digitalization. Existing approaches are usually built based on CNN for image understanding and RNN for char-level text generation. In addition, another language model is usually needed to improve the overall accuracy as a

### 关于光学字符识别(OCR)技术的学术论文 对于希望查找有关光学字符识别(Optical Character Recognition, OCR)技术的学术论文,可以考虑以下几个方向: - **历史与发展**:早期的研究集中在如何实现基本的文字识别功能。Gustav Tauschek早在1928年就提出了最初的OCR概念[^2]。现代研究则更多关注提高准确性、处理复杂背景下的文字以及支持多种语言。 - **算法改进**:近年来,随着机器学习特别是深度学习的发展,许多新的方法被应用于提升OCR系统的性能。卷积神经网络(CNNs),循环神经网络(RNNs),长短时记忆(LSTM)单元等都被证明能有效增强字符识别的效果[^1]。 - **应用场景扩展**:除了传统的文档数字化外,当前还有大量工作致力于将OCR与其他领域相结合,比如医疗影像中的手写笔记提取、车牌号码自动读取系统或是古籍修复项目里的文字恢复等等。 为了找到具体的学术文章,建议访问Google Scholar或者IEEE Xplore这样的在线数据库,在其中输入关键词如“optical character recognition”,并根据具体兴趣添加额外限定词来缩小范围,例如“deep learning for ocr accuracy improvement”。 ```python import requests from bs4 import BeautifulSoup def search_papers(keyword): url = f"https://scholar.google.com/scholar?q={keyword.replace(' ', '+')}" response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') results = [] for item in soup.select('.gs_ri'): title = item.select_one('.gs_rt').get_text() link = item.select_one('a')['href'] snippet = item.select_one('.gs_rs').get_text() if item.select_one('.gs_rs') else '' result = { "title": title, "link": link, "snippet": snippet } results.append(result) return results[:5] papers = search_papers("optical character recognition deep learning") for paper in papers: print(f"{paper['title']}\n{paper['link']}\nSnippet: {paper['snippet']}\n\n") ```
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猴猴猪猪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值