图像智能处理黑科技,让图像处理信手拈来

本文聚焦计算机视觉领域的图像智能处理技术。介绍了合合信息的智能图像处理引擎,涵盖图像切边增强、PS检测、水印去除、矫正、去屏幕纹等黑科技,还说明了各技术原理及优势,并提及可通过其提供的API将功能集成到项目开发中,能提升应用性能与效率。
部署运行你感兴趣的模型镜像

0. 前言

计算机视觉 (Computer Vision, CV) 通过研究如何令机器“看懂”世界,构建从图像中获取信息的人工智能系统,是人工智能领域的一个重要分支。计算机视觉具体而言是指,利用计算机代替人眼对目标进行识别、跟踪和识别等,通过对图像进行处理,使其更适合人眼或计算机检测。因此,图像智能处理技术在计算机视觉中发挥着重要作用。

1. 图像智能处理简介

图像智能处理是指利用计算机对各种复杂应用场景的图像进行自动化处理和分析,是计算机视觉领域中重要的技术领域。通过为机器视觉系统添加图像智能处理功能,等于为机器安装上了智能的“眼睛”,令机器看得清、看得懂,以接近甚至超越人眼的能力执行分析与处理任务。
但是,如所有计算机技术一样,作为一门实践性很强的学科,我们不必要从头开始“造轮子”,本文的目标是令我们能够将图像智能处理快速集成到项目开发中,从而专注于使用这些工具创造新价值。
合合信息是行业领先的人工智能集大数据科技企业,通过在智能文字识别和商业大数据领域的积累的优势,提供了行业领先的计算机图形图像技术,其研发的智能图像处理引擎提供多种图像智能处理黑科技,例如图像切边增强、PS 检测、图像水印去除以及图像矫正等,还有更多图像智能处理黑科技,可以参考合合信息官网。其解决了影像采集不规范问题,能够极大的优化影像质量,为项目后续的图像处理奠定基础。

合合信息
本文将带领大家一窥合合信息图像智能处理的主要黑科技技术,并通过示例演示如何将其应用于实际的项目实践中。

2. 图像切边增强

文档数字化是保存文献、文档的一种重要方式,随着移动摄像头日益增多,拍摄物理文档成为一种便捷的文档扫描方式,拍摄完成后,可以对图像进一步进行处理,实现内容分析和信息提取。但文档拍摄由于弯曲、旋转、折叠,或者位于复杂背景之上导致扫描结果并不理想,如下图所示。
文档拍摄存在问题
目前,较为先进的模型采用 U-Net 作为基础模型,它使用全卷积网络作为主干网络,并包含一系列的下采样层和上采样层,网络架构如下图所示。
DocUnet
获取带有标签的海量数据是深度监督学习面临的首个挑战。为训练网络,我们使用大量具有不同扭曲程度的文档图像及相应的变形图像作为输入,但这些数据集难以获取,为了获取真实的变形标签图,需要使用平整文档进行随机扭曲合成数据集。
训练数据集获取

图像切边增强是指令计算机智能判断照片中主体文档的边缘进行切边,同时增强图像突出文字,支持识别背景复杂的文字内容,返回文字信息及文字的位置信息、行置信度、单字符内容和位置等,体验地址:合合信息图像切边增强

图像切边增强
通过以上结果可以看出,图像切边增强不仅可以可以裁切图像主体区域,同时也能够对主体区域的图像质量进行增强,既能更好的对主题区域进行展示,还能够提高下游任务( OCR 识别、信息识别等)的准确率,在票据识别、文本转录等场景下具有很高的实用价值。

3. PS 检测

PS 作为一款图像处理软件,图像处理效果十分精确,其这一特点不仅为我们的生活提供了极大的便利,也会被“有心之人”利用,例如伪造发票、请假条等。
图像 PS 痕迹检测可以使用视觉线索和压缩伪影两种依据来判断图像是否被篡改:视觉线索即像素之间的关系;而压缩伪影特指 Jpg 压缩所用的 DCT 矩阵。以下网络架构是一种多分辨率融合网络,其融合了多个尺度的特征,可以利用图像的低维特征,对于图像 PS 痕迹检测具有极大优势。

PS检测架构

基于行业领先的自研篡改检测系统,合合信息的 PS 检测系统可判断图片是否被篡改,支持身份证、护照、行驶证、驾驶证、港澳通信证等证照类别,及增值税发票、普通发票、小票、合同等文档类别,让一切伪造凭证无所遁形,体验地址:合合信息 PS 检测

PS 检测
在上图中,可以看出即时对于人眼而言无法察觉的微小 PS 修改痕迹,利用合合信息的 PS 检测系统的“火眼金睛”仍然可以准确的让其原形毕露。

4. 图像水印去除

图像凭借其直观、易生产、传播成本低的特点在诸多信息的传播方式中成为了互联网信息传播的首选方式,而图像水印作为图像版权保护的重要方式在互联网中得到了极为广泛的应用。但是,作为用户,有时过度叠加的水印对我们的冲浪体验造成了极大的不便,相信许多小伙伴都在网上见过叠加了一层又一层水印的图片,并对其深恶痛绝。

图像水印
图像水印去除问题可以看作是一个从图像到图像的转换问题,即将带水印的图像转换为无水印的图像。我们同样可以基于全卷积网络来搭建图像水印去除模型,以实现这种图像到图像的转换。以下全卷积网络的输入是带水印的图像区域,经过多层卷积神经网络处理后输出无水印的图像,网络模型的目标是令网络输出的无水印图像能够和原始的无水印图像尽可能的接近。

网络架构

合合信息图像水印去除支持对图片中日期、logo、文字等形式的水印进行自动擦除,确保高保真处理,无痕还原图片素材,体验地址:合合信息图像水印去除

图像水印去除可以看到水印去除的效果超出预期,即使是图像中的色彩以及细小的线条都可以得到完好的保留,而不是简单的对水印进行淡化涂抹,而且水印去除功能还支持去除 pdf 格式的文件,这对于大多数用户而言简直是福音,再也不用打印出带有浓厚颜色甚至影响阅读的电子版课件了。

5. 图像矫正

在日常生活与工作中我们通常使用纸质文档承载大量有用的信息,随着移动智能手机、便携相机等设备的逐渐普及,我们通常通过拍照实现纸质文档的数字化。文档数字化实现了纸质文档的存档、检索、共享、识别与分析等处理,为我们日常的工作与生活带来了极大的便利。但由于相机的姿态、文档放置状态、文档自身变形等不确定因素,在使用移动设备采集文档照片时会出现角度和弯曲变形,这些原始的照片对于文档图像内容的自动提取与分析造成了不利影响,因此需要进行一定的变形矫正处理。

偏移图像
针对现有用于图像矫正深度学习模型空间泛化性差、模型参数量大、推理速度慢等问题,目前一般采用轻量化文档姿态估计网络,用于透视变形文档图像的姿态估计处理,称之为 DPENet (Document Pose Estimation Network)。利用 DPENet 网络将文档图像中的单一文档视为一个姿态估计对象,将文档的四个角点视作文档对象的四个姿态估计点,结合当前主流的姿态估计模块 DSNT 实现了文档图像角点的高精度定位,并通过透视变换处理实现了透视变形的高精度矫正处理。

DSNT

合合信息图像矫正可以智能定位图像中文档主体的边缘,并进行背景切除 (文档提取),对形变文档进行矫正,主要包括角度矫正和弯曲矫正两种复杂的矫正,体验地址:合合信息图像矫正

图像矫正
可以看到利用合合信息图像矫正功能能够将图像恢复至正面垂直拍摄的效果,解决了文档图像变形矫正算法抗干扰性差、矫正效果不佳等问题。

6. 图像去屏幕纹

智能手机,数码相机等设备为我们提供了快速记录信息的机会,已经逐渐成为人们日常生活中必不可少的工具。但是,使用数码相机拍摄数字屏幕时会在照片中会出现令人反感的屏幕纹。屏幕纹的存在不仅严重降低了图像的质量,并且也会影响到我们后续的分析和处理。

摩尔纹
同时,由于屏幕纹对重复结构的轻微变换具有极度敏感性,因此图像结构的多样性导致屏幕纹也具有复杂性和不规则性,屏幕纹的消除一直以来都是具有极具挑战性的任务。传统高斯、双边等滤波方式对屏幕纹的抑制效果不佳,而专门针对屏幕纹消除的工作目前仍然较少。不同于取噪点或去马赛克等图像修复问题,由于摩尔纹在频率、形状、颜色等方面的巨大变化,从被摩尔纹扰动的图像中恢复出原始干净图像仍然是一个未解决的问题。
针对这以问题许多研究试图通过多尺度设计来消除不同频段的摩尔纹。DMCNN 提出使用具有多分辨率分支的多尺度 CNN 处理摩尔纹图案,并对不同尺度的输出求和以获得最终输出;MDDM 通过引入基于动态特征编码器的自适应实例规范化改进了 DMCNN。而最新的 MopNet 则使用多尺度特征聚合子模块来处理复杂频率;同时在不同尺度之间采用渐进式上采样策略以平滑地提高分辨率。

图像去屏幕纹网络架构

合合信息图像去屏幕纹支持去除因拍屏幕产生的各种纹理(屏幕纹、摩尔纹),还原清晰真实图像,体验地址:合合信息图像去屏幕纹

图像去屏幕纹
可以看到合合信息图像去屏幕纹功能能够高效的完成图像恢复任务,最大程度的恢复被屏幕纹污染的屏摄照片,能够去除所有样式的屏幕纹,并且能够保证图片细节信息完整,便于我们后续对图像进行进一步的分析。

7. 调用图像智能处理 API

感受了合合信息图像智能处理引擎的强大之后,我们当然迫不及待的想将其应用到项目实践中去,合合信息提供了丰富的图像智能处理 API,支持 curlJavaC#PythonPHPNode.js等多种编程语言,并且提供了详尽的 API 功能描述与使用示例,方便我们将其应用于项目中去。

API调用
Python API 为例,调用合合信息图像智能处理的代码非常简单方便:

import requests
import json

def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

class CommonOcr(object):
    def __init__(self, img_path):
        # 登录后前往 “工作台-账号管理-开发者信息” 查看 x-ti-app-id
        self._app_id = 'f5..................5e4'
        # 登录后前往 “工作台-账号管理-开发者信息” 查看 x-ti-secret-code
        self._secret_code = '7...............4cafa'
        self._img_path = img_path

    def recognize(self):
        # 图片切边增强
        url = 'https://api.textin.com/ai/service/v1/crop_enhance_image'
        head = {}
        try:
            image = get_file_content(self._img_path)
            head['x-ti-app-id'] = self._app_id
            head['x-ti-secret-code'] = self._secret_code
            result = requests.post(url, data=image, headers=head)
            return result.text
        except Exception as e:
            return e

if __name__ == "__main__":
    response = CommonOcr(r'download.jpeg')
    print(response.recognize())

小结

依托于合合信息旗下强大的技术支撑,其研发的智能图像处理引擎不仅能够满足项目中常见的图像处理需求,同时其完善的文档支持也能够帮助我们快速部署应用高效的图像处理功能。本节中,介绍了合合信息图像智能处理的主要黑科技,包括图像切边增强、PS 检测、图像水印去除、图像矫正和图像取屏幕纹等,同时也了解了这些黑科技的重要特点,在今后的项目实践中可以根据实际需要合理选用,极大的提高应用程序的性能与效率。

您可能感兴趣的与本文相关的镜像

PyTorch 2.6

PyTorch 2.6

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

智能图像处理技术 作者:李弼程 出版社:电子工业出版社 ISBN:712100047 原价: ¥32 图书简介 本书主要论述了智能图像处理技术,系统介绍了智能图像处理技术的有代表性的思想、算法与应用,跟踪了图像处理技术的发展前沿。全书共分为15章,重点讨论了图像边缘检测、图像分割、图像特征分析、图像配准、图像融合、图像分类、图像识别、基于内容的图像检索与图像数字水印。此外,为了内容的完整性,本书还介绍了图像处理技术,如图像采集、图像变换、图像增强、图像恢复、图像编码与压缩。  图书目录 第1章 绪论 1.1 图像图像处理的概念 1.2 数字图像处理研究的内容 1.2.1 传统的图像处理技术 1.2.2 智能图像处理技术 1.3 数字图像处理系统 1.4 数字图像处理的应用 1.5 人的视觉系统与色度学基础 1.5.1 人的视觉系统 1.5.2 色度学基础 1.6 本书的安排 本章参考文献第2章 图像采集 2.1 图像数字化 2.1.1 图像的数学模型 2.1.2 采样与量化 2.2 量化技术 2.2.1 标量量化 2.2.2 矢量量化 2.2.3 LBG算法与初始码书设计 2.3 图像输入 2.3.1 图像采集系统 2.3.2 图像输入设备 2.4 图像文件格式 2.4.1 BMP(位图)文件格式 2.4.2 GIF文件格式 2.4.3 JPEG文件格式 本章参考文献 第3章 图像变换 3.1 傅里叶变换 3.1.1 一维傅里叶变换 3.1.2 二维傅里叶变换 3.1.3 二维离散傅里叶变换的性质 3.1.4 正交变换的基本概念 3.2 离散余弦变换 3.2.1 离散余弦变换的定义 3.2.2 离散余弦变换的快速实现 3.3 K-L变换 3.3.1 K-L变换的定义 3.3.2 K-L变换的性质 3.4 小波变换 3.4.1 连续小波变换 3.4.2 二进小波变换 3.4.3 离散小波变换 3.5 其他可分离变换 3.5.1 沃尔什变换 3.5.2 哈达玛变换 3.5.3 斜变换 本章参考文献 第4章 图像增强 4.1 空间域单点增强 4.1.1 灰度变换 4.1.2 直方图修正 4.2 图像平滑 4.2.1 噪声门限法 4.2.2 邻域平均法 4.2.3 加权平均法 4.2.4 中值滤波 4.2.5 掩膜平滑法 4.2.6 空间低通滤波 4.3 图像锐化 4.3.1 微分算子方法 4.3.2 Sobel算子 4.3.3 拉普拉斯算子 4.3.4 统计差值法 4.3.5 掩膜匹配法 4.3.6 空间高通滤波 4.4 图像滤波 4.4.1 低通滤波 4.4.2 同态滤波 4.4.3 高通滤波 4.5 彩色增强 4.5.1 假彩色处理 4.5.2 伪彩色处理 本章参考文献 第5章 图像恢复 5.1 图像退化的数学模型 5.1.1 图像退化模型 5.1.2 点冲激函数的退化模型 5.1.3 连续图像退化模型 5.1.4 离散图像的退化模型 5.1.5 离散退化模型的求解 5.2 无约束图像恢复 5.2.1 最小二乘估计 5.2.2 运动模糊图像的恢复 5.3 有约束图像恢复 5.3.1 有约束的最小二乘图像恢复 5.3.2 维纳滤波 5.3.3 功率谱均衡恢复 5.3.4 有约束最小平方恢复 5.4 图像几何校正 5.4.1 几何校正方法 5.4.2 空间几何坐标变换 5.4.3 重采样 本章参考文献 第6章 图像编码与压缩 6.1 图像编码基础 6.1.1 数据压缩的概念 6.1.2 图像压缩的性能评价 6.2 统计编码 6.2.1 编码效率与冗余度 6.2.2 霍夫曼编码 6.2.3 香农-费诺编码 6.2.4 算术编码 6.3 预测编码 6.3.1 预测编码的基本原理 6.3.2 差值脉冲编码调制 6.3.3 最优线性预测 6.4 变换编码 6.4.1 变换编码系统结构 6.4.2 正交变换编码 6.4.3 小波变换编码简介 6.5 无失真压缩编码 6.5.1 引言 6.5.2 基于线性预测的无失真压缩 6.5.3 基于S+P变换的无失真压缩 6.5.4 基于第二代小波变换的无失真压缩 6.6 国际标准简介 6.6.1 JPEG 6.6.2 H.261建议 6.6.3 MPEG-1标准 6.6.4 MPEG-2标准 6.6.5 MPEG-4标准 6.6.6 MPEG-7标准 6.6.7 MPEG-21标准 本章参考文献 第7章 图像边缘检测 7.1 边缘检测的基本概念 7.2 微分边缘检测算子 7.2.1 梯度方法 7.2.2 二阶微分算子 7.3 多尺度边缘检测 7.3.1 Marr-Hildretch边缘检测 7.3.2 Witkin尺度滤波理论 7.3.3 小波变换边缘检测 7.4 基于模糊增强的边缘检测 7.4.1 引言 7.4.2 单层次模糊增强简介 7.4.3 多层次模糊增强 7.4.4 基于多层次模糊增强的边缘提取 7.5 基于Snake模型的边缘检测 7.5.1 Snake模型的数学描述 7.5.2 基于Snake模型的边缘检测 7.6 曲面拟合边缘检测 本章参考文献 第8章 图像分割 8.1 图像分割的一般模型 8.2 基于阈值选取的图像分割方法 8.2.1 直方图阈值 8.2.2 最大熵阈值 8.2.3 二维直方图阈值 8.2.4 统计判决确定门限 8.2.5 局部阈值法 8.3 基于区域的图像分割方法 8.3.1 区域生长法 8.3.2 分裂-合并 8.4 基于边缘检测的图像分割 8.4.1 Hough变换原理 8.4.2 Hough变换应用 8.4.3 广义Hough变换 8.5 模糊分割技术 8.5.1 模糊阈值分割方法 8.5.2 基于二维直方图的模糊门限分割方法 本章参考文献 第9章 图像特征分析 9.1 颜色特征分析 9.1.1 颜色的表示 9.1.2 颜色直方图 9.1.3 直方图不变特征量 9.1.4 颜色矩 9.2 纹理特征分析 9.2.1 空间自相关法 9.2.2 傅里叶功率谱法 9.2.3 共生矩阵法 9.2.4 基于邻域特征统计的纹理分析方法 9.2.5 灰度差分统计方法与行程长度统计法 9.2.6 用分数维描述纹理 9.2.7 Tamura纹理特征 9.3 形状特征分析 9.3.1 引言 9.3.2 基于轮廓的全局方法 9.3.3 基于轮廓的结构方法 9.3.4 基于区域的全局方法 9.3.5 基于区域的结构方法 本章参考文献 第10章 图像配准 10.1 图像配准基础 10.1.1 图像配准的概念 10.1.2 图像配准的一般模型 10.1.3 相似性测度 10.2 基于图像灰度的图像配准 10.2.1 互相关匹配方法 10.2.2 投影匹配算法 10.2.3 基于傅里叶变换的相位匹配方法 10.2.4 图像矩匹配方法 10.3 基于图像特征的配准 10.3.1 算法步骤与特点 910.3.2 图像处理 10.3.3 特征选择 10.3.4 图像匹配 10.4 最小二乘图像匹配方法 10.4.1 基本思想 10.4.2 基本算法 10.5 快速匹配方法 10.5.1 分层搜索算法 10.5.2 基于遗传算法的匹配方法 10.5.3 基于金字塔分级搜索的匹配方法 本章参考文献 第11章 图像融合 11.1 图像融合的基本原理 11.1.1 信息融合的概念 11.1.2 多源遥感图像融合 11.1.3 图像融合的模型框架与算法 11.1.4 遥感图像融合效果的评价 11.2 小波变换融合法 11.2.1 传统的小波变换融合方法 11.2.2 基于特征的小波变换融合方法 11.3 基于PCA变换与小波变换的图像融合 11.3.1 PCA(主分量分析)变换融合法 11.3.2 基于PCA变换与小波变换的融合算法 11.4 基于IHS变换与小波变换的图像融合 11.4.1 IHS变换融合法 11.4.2 基于IHS变换与小波变换的融合算法 本章参考文献 第12章 图像分类 12.1 图像分类的概念与原理 12.1.1 图像分类的概念 12.1.2 图像分类的原理 12.2 统计分类方法 12.2.1 监督分类 12.2.2 非监督分类 12.3 模糊分类方法 12.3.1 模糊集合 12.3.2 模糊关系 12.3.3 模糊分类 12.3.4 基于模糊关系的模式分类 12.3.5 模糊聚类方法 12.3.6 改进的模糊C-均值算法 12.4 神经网络分类方法 12.4.1 人工神经网络基础 12.4.2 神经网络监督分类方法 12.4.3 神经网络非监督分类方法 12.5 基于广义图像的神经网络遥感图像分类方法 12.5.1 广义图像 12.5.2 算法的实现过程 12.5.3 实验结果与性能比较 12.6 基于证据理论与神经网络的遥感图像分类方法 12.6.1 证据理论 12.6.2 算法的实现过程 12.6.3 实验结果与性能比较 本章参考文献 第13章 图像识别 13.1 图像识别的基本原理 13.2 模板匹配识别技术 13.2.1 模板匹配一般模型 13.2.2 序贯相似性检测算法 13.3 神经网络图像识别技术 13.3.1 神经网络识别的一般模型 13.3.2 BP神经网络识别技术 13.3.3 Kohonen神经网络识别技术 13.4 模糊识别技术 13.4.1 隶属原则识别法 13.4.2 择近原则识别法 13.4.3 一种手写文字模糊识别技术 13.5 基于隐马尔可夫模型的识别技术 13.5.1 隐马尔可夫模型基础 13.5.2 基于隐马尔可夫模型的人脸识别 13.6 车牌识别技术 13.6.1 系统简介 13.6.2 车牌图像定位分割算法 13.6.3 车牌字符的识别 本章参考文献 第14章 c基于内容的图像检索 14.1 基于内容的图像检索概述 14.1.1 基于内容的检索 14.1.2 基于内容的图像检索 14.1.3 基于内容的图像检索相关技术 14.1.4 基于内容的图像检索系统 14.2 基于颜色特征的图像检索 14.2.1 直方图方法 14.2.2 中心矩法 14.2.3 参考颜色表法 14.2.4 颜色对方法 14.2.5 基于主色调的检索方法 14.2.6 结合空间信息的图像检索方法 14.3 基于纹理特征的图像检索 14.3.1 基于共生矩阵的纹理匹配 14.3.2 基于小波变换的纹理匹配 14.3.3 基于Gabor变换的纹理匹配 14.4 基于形状特征的图像检索 14.4.1 基于傅里叶描述的形状检索 14.4.2 基于形状矩的形状检索 本章参考文献 第15章 图像数字水印技术 15.1 图像数字水印技术概述 15.1.1 信息隐藏技术 15.1.2 数字水印技术 15.2 空域水印技术 15.3 DCT域图像水印技术 15.3.1 DCT域图像水印研究综述 15.3.2 算法实例 5.3.3 水印的稳健性测试 15.4 小波域图像水印技术 15.4.1 技术流程 15.4.2 基于低频子带方法 15.4.3 细节分量方法 15.4.4 利用图像编码的方法 15.4.5 Inoue算法 15.5 脆弱图像数字水印技术 15.5.1 脆弱图像数字水印的基本特征和研究状况 15.5.2 算法实例 本章参考文献
评论 38
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

盼小辉丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值