OCR(光学字符识别)工具:
- Miner U http://opendatalab.com/OpenSourceTools/Extractor
- CSIG文档图像分析与识别专委会公众号
OCR任务处理思路:
原始模态 | 目标模态 | 模式匹配算法 |
图片 (像素集合) 检索语句 (文本序列) | 文本 | 字符串匹配 |
像素集合 | 图像相似度度量 | |
统一模态(Embeding)向量 | 向量空间度量(常用) |
对文本做分词/扩充,对图片做文字识别
模式匹配算法:
-
识别文本:
单检索词 | 多检索词 | 带逻辑运算符的检索式 | |
识别词 | HASH | TRIE | |
文本行 | KMP/BM | AC |