基于文本的模式匹配算法入门--课堂笔记share(主要是任务思路和推荐工具)

OCR(光学字符识别)工具:

  • Miner U  http://opendatalab.com/OpenSourceTools/Extractor
  • CSIG文档图像分析与识别专委会公众号

OCR任务处理思路:

原始模态目标模态模式匹配算法

图片

(像素集合)

检索语句

(文本序列)

文本字符串匹配
像素集合图像相似度度量
统一模态(Embeding)向量向量空间度量(常用)

对文本做分词/扩充,对图片做文字识别

模式匹配算法:

  • 识别文本:

单检索词多检索词带逻辑运算符的检索式
识别词HASHTRIE
文本行KMP/BMAC

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值