TrOCR
文章平均质量分 84
Virgil139
谁终将点燃闪电,必长久如云漂泊。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
microsoft-UniLM项目介绍
存放数据增强相关代码。README.md:项目说明,含概述、使用等。:使trocr成为Python包。bpe.py:实现字节对编码算法。:数据转SROIE格式。data.py:负责数据加载与预处理。:具体数据增强操作。deit.py:DEIT模型相关代码。:生成数据或结果。py:图像推理。:记录依赖包。scoring.py:计算评估指标。task.py:定义任务逻辑。:定义TrOCR模型架构。:UniLM模型权重。:UniLM模型代码。:ViT模型代码。原创 2025-07-10 01:16:30 · 1149 阅读 · 0 评论 -
【TrOCR】根据任务特性设计词表vocab.json
基于对预训练模型文件夹中的各个文件的理解,思考以下问题:1、你觉得哪些文件在TrOCR的训练中起到作用,并简短说明是什么作用。2、哪些文件经过TrOCR的训练调参后发生改变(也就是说通过训练得到的,而不是人物设计的)。3、一些对于TrOCR模型的训练和推理都没有作用的文件,是在哪里起作用,是识别完文字的下一个阶段用到?4、训练不改变内容,在仅仅用于文字识别TrOCR任务的训练推理时,不起作用的文件是否就可以删除?5、预训练权重是这些,那微调后的权重文件夹内容也是这些吗?原创 2025-08-22 17:47:18 · 1095 阅读 · 0 评论 -
【TrOCR】模型预训练权重各个文件解读
本文介绍了TrOCR预训练权重(microsoft/trocr-base-printed)的下载及文件夹内文件解读。文件夹包含多类关键文件:配置文件(如`config.json`定义模型架构,`generation_config.json`控制文本生成)、权重文件(`model.safetensors`存储预训练参数,安全高效)、分词相关文件(`vocab.json`、`merges.txt`等定义文本处理规则)、图像预处理配置(`preprocessor_config.json`)等。原创 2025-08-21 23:33:18 · 1043 阅读 · 2 评论 -
【TrOCR】用Transformer和torch库实现TrOCR模型
主要用于计算解码器生成文本与真实标签之间的差异,具体是通过 标签移位(label shifting) 策略实现的序列到序列(Seq2Seq)损失计算。,目录下有train和val两个文件夹,分别是images和labels.json。TrOCR 官方使用的损失函数是交叉熵损失(Cross-Entropy Loss),TrOCR 是典型的编码器 - 解码器架构(图像编码器 + 文本解码器),原创 2025-08-21 23:31:21 · 354 阅读 · 0 评论
分享