传送门: https://github.com/vkit-dev/vkit
一图胜千言😄:


项目简介
vkit 是一个面向计算机视觉(特别是文档图像分析与识别方向)开发者的工具包,特性如下:
- 丰富的数据增强策略支持
- 支持常见的光度畸变策略,如各类色彩空间操作、各类噪音操作
- ⭐ 支持常见的几何畸变策略,如各类仿射变换、各类非线性变换(如 Similarity MLS ,基于相机模型的 3D 曲面、翻折效果等)
- ⭐ 支持在几何畸变过程中,图片与各种标注数据类型的一致变换。例如,在旋转图片的同时,vkit 也可以同时旋转关联标注的位置信息
- 较为全面的数据类型封装与可视化支持
- 图片类型(基于 PIL 的封装,支持各类图片的读写)
- 标注类型:蒙板( mask )、评分图( score map )、框( box )、多边形( polygon ) 等
- 工业级代码质量
- 友好的代码自动补全与类型检查支持,为开发体验保驾护航
- 成熟的包管理与依赖管理机制
- 自动化风格检查(基于 flake8 )与静态类型分析(基于 pyright )
注:
- 🚧 表示施工中,未完全支持
- ⭐ 表示本项目的亮点(其他项目没有,或是做得不够好的地方)
项目愿景
作者作为一名 CV/NLP 算法工程师,希望可以通过 vkit 这个项目,从以下几个方面给大家提供便利:
- 将开发者从繁琐的数据治细节中解放出来,将宝贵的时间放在更有价值的工作上,如数据治理策略、算法模型设计与调优等
- 整合常见的数据增强策略,助力文档图像分析与识别方向的科研工作、构建工业级场景数据方案(即工业界算法落地所需的那点 "secret sauce")
- 构建工业级开源文档图像分析与识别解决方案(如扭曲复原、超分辨率、OCR 、版面分析等)
转载自V2EX,传送门:https://www.v2ex.com/t/818997#reply3
vkit是一个专注于计算机视觉,尤其是文档图像分析与识别的开发者工具包。它提供了丰富数据增强策略,包括光度和几何畸变,支持多种标注类型的数据一致变换。此外,vkit还具备全面的数据类型封装和可视化功能,并注重代码质量,采用自动化风格检查和静态类型分析。该项目旨在帮助开发者从数据预处理中解脱,专注于更高价值的工作,如算法设计和优化,以及提供工业级的文档图像解决方案。

被折叠的 条评论
为什么被折叠?



