
OCR(文本检测和识别)
WX Chen
实用技术总结,前沿科技分享,欢迎交流技术和业务
展开
-
文本定位算法介绍
难度分析: 字幕文字的字体、大小、色彩和透明度等因素影响 传统方法有: 字幕定位需要区分字幕区域和背景区域,有效的区分特征包括以下几点: 字幕的颜色、字体较为规整,且与背景有较为明显的颜色差异; 字幕区域的笔画丰富,角点和边缘特征比较明显; 字幕中字符间距固定,排版多沿水平或竖直方向; 同一视频中字幕出现的位置较为固定,且同一段字幕一般会停留若干秒的时间。 基于边缘密度的字幕定位: 首先,对于视频帧灰度图像进行边缘检测,得到边缘图。 然后,在边缘图上分别进行水平和竖直方向的投影分析,通过投.原创 2020-08-12 14:54:14 · 1795 阅读 · 0 评论 -
文字定位 CTPN-黄伟林
论文翻译汇总 https://github.com/SnailTyan/deep-learning-papers-translation 2016年 ECCV 业界现在物体识别领域用的最多的是proposal region方法,即通过筛选出候选区域,然后对候选区域进行二分类(object/ no object), 同时还要对bound box进行回归,这是一般的物体识别所用的方法。 CTPN...原创 2018-10-10 10:59:57 · 1025 阅读 · 0 评论 -
文字识别 CRNN-白翔
pytorch代码(只针对英文) https://blog.youkuaiyun.com/u013102349/article/details/79515147 中文翻译 架构包括三部分:1) 卷积层,从输入图像中提取特征序列;2) 循环层,预测每一帧的标签分布(每帧预测);3) 转录层,将每一帧的预测变为最终的标签序列。 CNN: 特征序列的每一个特征向量在特征图上按列从左到右生成。这意味着第i个特征向...原创 2018-10-10 11:00:33 · 2616 阅读 · 0 评论