labelstudio ocr标注数据解析

在试用labelstudio标注数据时,通常使用coco格式导出,之前标注ocr信息时,无论如何都切不出来对应的文字块,反复百度、google都没有现成的提示,后来翻labelstudio的官方文档得到提示。

The units the x, y, width and height of image annotations are provided in percentages of overall image dimension.

翻译如下:图像注释的x、y、宽度和高度的单位以整体图像尺寸的百分比提供。

根据这个原则,转换一下coco中的x、y坐标才能得到文字块在图片中正确的位置:

假如导出的数据x、y、width、height分别如下:

pixel_x, pixel_y, pixel_width, pixel_height = 63,83,20,7 # 导出数据
original_width, original_height = 1650, 2314 # 图片的长宽

其实际的坐标如下:

x = pixel_x/100 * original_width
y = pixel_y/100 * original_height
width = pixel_width/100 * original_width
height = pixel_height/100 * original_height

# x,y,width, height == > (1039.5, 1920.62, 330.0, 161.98000000000002)

实际中将坐标更换为整数在numpy中索引:

x,y,width, height = [int(i) for i in [x,y,width, height]]

#子图
text_area = img[y:y+height,x:x+width,:] 

记录一下,以防日后使用忘记了

### 使用 Label Studio 进行文本标注 Label Studio 是一个强大的开源工具,适用于创建、管理和完成各种类型的数据标注任务。对于文本标注而言,此工具提供了直观的界面来帮助用户高效地标记文本数据[^2]。 为了在 Label Studio 中进行文本标注: 1. 安装并启动 Label Studio 后,在项目配置文件中定义适合于文本分类的任务模板。 2. 导入待标注的原始文本数据到平台内。支持多种输入源如 CSV 文件、JSONL 或者直接粘贴纯文本内容等。 3. 利用图形化编辑器手动为每一段文字打上标签,也可以预先设定一些常见的类别选项以便快速选择。 4. 对已标记好的样本执行质量控制措施,比如随机抽查验证准确性或是邀请多位评审员共同参与审核工作以提高一致性水平。 ```json { "label_config": "<View><Text name=\"text\" value=\"$text\"></Text><Labels name=\"labels\" toName=\"text\"><Label value=\"Positive\"></Label><Label value=\"Negative\"></Label></Labels></View>" } ``` 上述 JSON 片段展示了一个简单的文本情感分析项目的配置实例,其中包含了两个可能的情感极性:“正面” 和 “负面”。 --- ### 集成 UIE 实现半监督学习 当涉及到利用较少的人工标注样本来提升模型性能时,可以考虑采用基于 UIE (Unified Information Extraction) 的方法来进行交互式的预标注,并将其与 Label Studio 结合起来形成闭环迭代优化过程[^1]。 具体做法如下: - **初始化阶段**:先由专家提供少量高质量种子样本作为初始训练集;同时部署一个基础版的信息抽取引擎负责自动预测其余未见过材料中的潜在实体位置及其对应关系。 - **主动学习循环**:根据当前最好估计版本所给出的概率分布挑选出最不确定部分提交给人类审查人员确认正误情况——即所谓的“难例挖掘”。这些新获得的知识会被立即用来更新现有参数设置从而不断改进整体表现直至收敛为止。 - **持续反馈机制**:允许业务分析师随时介入调整策略方向甚至重写某些特定规则来应对实际场景变化需求。每一次修改都会触发新一轮评估周期确保始终处于最佳状态运行之中。 通过这种方式不仅能够显著减少所需投入成本同时也加快了开发进度让开发者可以把更多精力集中在解决核心问题上面而不是无休止地收集整理素材之上。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值