相似图像搜索的哈希算法有三种:
(1)均值哈希算法
(2)差值哈希算法
(3)感知哈希算法
我们这里介绍Phash,附录有另外两种的实现。
感知哈希算法步骤:
1、设置图片大小:一般是32 * 32,一个较好的大小,方便DCT计算;
2、转化为灰度图:把缩放后的图片转化为256阶的灰度图;
3、计算DCT: DCT把图片分离成分率的集合;
4、DCT计算后的矩阵是32 * 32,保留左上角的8 * 8,这些代表的图片的最低频率;
5、计算平均值:计算缩小DCT后的所有像素点的平均值;
6、计算图片哈希值,大于平均值记录为1,反之记录为0,得到信息指纹,组合64个信息位,顺序随意保持一致性;
7、最后比对两张图片的指纹,对比汉明距离从而比较图片相似性。
汉明距离:两个等长距离的字符串的汉明距离为两个字符串对应位置不同字符的个数,比如“100010”和“000001”的汉明距离为3。
// 感知哈希算法
import cv2
import numpy as np
#定义感知哈希
def phash(img):
#step1:调整大小32x32
img=cv2.resize(img,(32,32))
img=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
img=img.astype(np.float32)
#step2:离散余弦变换
img=cv2.dct(img)
img=img[0:8,0:8]
sum=0.
hash_str=''
#step3:计算均值
# avg = np.sum(img) / 64.0
for i in range(8):
for j in range(8):
sum+=img[i,j]
avg=sum/64
#step4:获得哈希
for i in range(8):
for j in range(8):
if img[i,j]>avg:
hash_str=hash_str+'1'
else:
hash_str=hash_str+'0'
return hash_str
#计算汉明距离
def hmdistance(hash1,hash2):
num=0
assert len(hash1)==len(hash2)
for i in range(len(hash1)):
if hash1[i]!=hash2[i]:
num+=1
return num
if __name__ == '__main__':
img1=cv2.imread('data/000_0001.png')
img2=cv2.imread('data/003_0001.png')
hash1=phash(img1)
hash2=phash(img2)
print(hash1)
print(hash2)
dist=hmdistance(hash1,hash2)
print('距离为:',dist)
原文链接:https://blog.youkuaiyun.com/weixin_42872907/article/details/108329795
站长简介:前每日优鲜python全栈开发工程师,自媒体达人,逗比程序猿,钱少话少特宅,关注我,做朋友, 我们一起谈人生和理想吧!我的公众号:想吃麻辣香锅
关注公众号回复充值+你的账号,免费为您充值1000积分