
Algorithm
文章平均质量分 60
_小马奔腾
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer与OCR
由于OCR是序列到序列,NMT或者通用的任务Transformer也是Sequence 2 Sequence。而OCR识别经典论文是CRNN,其中是CNN+RNN+softmax,这个RNN可以试试LSTM,GRU,或者其他变种。也可以是机器翻译的端到端的序列识别。本文试图分析Transformer与OCR任务,试图将Transformer替换CRNN中的LSTMLSTM与TransformerTransformer实际上是google的论文『attention is all you need』.原创 2020-05-10 20:11:37 · 1649 阅读 · 0 评论 -
OCR 检测与分割数据集、统计脚本总结供下载
本文整理OCR 论文中,文本定位与分割算法的常用对比测试集,以及详细说明,统计脚本;各个数据集的特点等。原创 2020-04-22 18:03:31 · 423 阅读 · 0 评论 -
OCR end2end数据集、统计脚本总结供下载
本文整理OCR 论文中,end2end算法的常用对比测试集,以及详细说明,统计脚本;各个数据集的特点等。原创 2020-04-22 18:01:15 · 437 阅读 · 0 评论 -
OCR 识别数据集、统计脚本总结供下载
IIIT5KScene Text Recognition using Higher Order Language Priors简介,5K涨裁剪好的文字图片,如上图。2K张训练集,3K张测试集。测试集中包含了街景,网络图片等。仅标注62个字符,52个字母以及10个数字。我这边整理了一份可用的,供下载,GT为txt格式 密码:u461。...原创 2020-04-22 17:38:47 · 3222 阅读 · 7 评论 -
mmdetection 源码分析
本文主要针对比较火热的 mmdetection 的源代码进行解读说明,记录一下里面细节以及设计上的方案的优势。下文是本人的理解。持续更新。。。首先引入里面用的Python的基础,以及基础库mmcv,最后在说明mmdetectionpython 基础类与对象mmcvmmdtetection...原创 2019-08-29 11:12:48 · 801 阅读 · 0 评论 -
Page dewarping (OCR之图像去扭曲)
在OCR中,存在着两个预处理难题【1】图像角度预判 【2】图像去除扭曲,去除扭曲主要包含两个方面:透视,畸变由于paper对这方面的论述几乎找不到,尤其是ICCV,NIP,CVPR、ECCV等鲜有新论文本文主要记录一下各种传统算法以及深度学习算法在图像扭曲上的尝试,持续更新...原创 2019-08-09 10:14:42 · 4456 阅读 · 0 评论 -
图算法系列二 网络诈骗检测
为了方便,本文的算法展示采用networkx, 接下来的文章主要以networkx为基础,说明图算法的应用Page Rank is a well-known algorithm developed by Larry Page and Sergey Brin in 1996....原创 2019-04-17 17:51:01 · 1356 阅读 · 0 评论 -
OCR 预处理与检测
前言: 通用OCR领域的最难的是预处理与检测,目标检测领域我们常看到的是横平竖直, 也就是说:检测到的边框平行或垂直于图像边界。但是,在OCR中,文字的方向可以是各种方向;而且长宽比不确定,各种场景,各种尺寸、各种语言、各种艺术字体。而且,目前多角度检测fatal 弱点:文本行比较长,检测框容易断裂; 阵列字极容易找错方向。 当然手写OCR也很难,本文主要对 preprocess 与...原创 2018-03-22 20:45:17 · 7142 阅读 · 0 评论 -
机器学习任务的state-of-art之github及个人总结
前言深度神经网络其实更加适合做感知,而贝叶斯理论的核心是推理,只有从感知到推理才能到决策。所以最终来讲,你希望达到一种理性的推理、理性的决策,这里面正好是贝叶斯网络一个大行其道的地方—余凯1. State-of-the-art result for all Machine Learning Problems https://github.com/RedditSota/state...原创 2017-11-21 14:32:47 · 3013 阅读 · 0 评论 -
数字图像处理与OpenCV总结篇:一
做了3年多的图像处理,从本科毕设就做,到硕士毕业都没离开这个行业。本文旨在总结一下OpenCV与传统图像处理。1、疑问? 自动16年初接触深度学习开始,读了一些图像paper。涉及图像识别(ResNet、googleNet系列)、目标检测(RCNN系列、YoLo)、人脸识别、OCR。 开始一接触深度学习一段时间就有一个疑问:既然深度学习这么有用,也刷新了很多领域的benchmark。原创 2017-10-25 09:50:47 · 2972 阅读 · 0 评论 -
图像特征提取系列之PCA
1:为什么图像处理需要PC A?1- 如果【特征向量】维度过高,不仅会增加计算复杂度,还会给分类问题带来负面影响,造成识别,或者分类精度降低。 2- 可能,直观上,感觉特征越多,就越多的描述【样本的属性】,可提高识别率。 3- 其实,并不是???!!假设,要区分西瓜,冬瓜。我们可以直接通过表皮就纹理,就可以做出正确的判断。那么,我多加几个特征:(重量)(形状)(体积)(是否有籽),可能还会对分原创 2017-04-27 21:13:43 · 6957 阅读 · 1 评论 -
github: object tracking benchmark
https://github.com/foolwood/benchmark_results原创 2017-04-25 21:23:32 · 4309 阅读 · 0 评论 -
cifar-10图像插值方法对训练模型结果的影响
有的时候我们为了使用比较深的神经网络训练cifar-10数据集。 这时,就不得不对resolution=32*32 的图像进行放大。来适应更深的 neutral network。 图像放大主要方法是差值。常用方法包括:线性插值,双线性插值,双三次插值。本文就几种常用的插值方法讨论他们对神经网络训练的结果的影响。以图像检索为例。1、单纯比较几种方法性能优劣 method 计算量(原创 2017-04-20 15:59:03 · 2881 阅读 · 0 评论 -
Leetcode :palindrome partitioning(c++)
利用回溯法(深搜)搜索答案。#include <iostream>#include <vector>using namespace std;bool isline(string s, int start, int end){ while(s[start] == s[end]){ start++; end--; } return start原创 2017-04-14 20:05:11 · 721 阅读 · 0 评论 -
Tail Recursion 尾递归
昨天做LeetCode的时候发现一个词,Tail Recursion。今天来简单介绍。 Q:sum(5) = 1 + 2 + 3 + 4 + 5 = 15; 为了简单我们用Python1、普通递归:def recsum(x): if x == 1: return x else: return x + recsum(x - 1)python解释原创 2017-03-23 10:08:04 · 2024 阅读 · 0 评论