- 博客(7)
- 收藏
- 关注
原创 simhash,相似文档检索、以图搜图、图片去重
Simhash是一种为文档生成指纹的算法,然后可以通过计算simhash值之间的汉明距离来度量两个文档的相似度。
2022-08-27 11:04:39
749
原创 主成分分析(Principle Component Analysis,PCA)
PCA理论部分PCA简介顾名思义,主成分分析是分析一组数据中的主要成分。它是一种很好用的特征提取算法,用于降维。PCA降维后的数据的各个维度之间是相互正交的,即提取出的特征之间是相互独立的,也就是这组数据的主要特征,而原始数据中可能某两个甚至多个字段之间存在着相关性,因此这个算法被称为主成分分析。在很多情况下,无法人为去分辨一组数据中是否有冗余字段,因为这些字段之间可能存在着某种隐含的、人难以分辨的内在联系,或者得到的特征是一组计算出的向量,没有属性标签,在这种情况下,就需要对信息进行PCA降维。
2021-02-05 10:49:23
1213
原创 神经网络(neural networks)
神经网络理论感知机感知机由两层神经元组成。用数学描述感知机:定义一个增广向量x⃗\vec{x}x{x⃗=[x1],y=+1x⃗=[−x−1],y=−1\begin{cases}\vec{x}=\left[\begin{array}{cc}x\\1\end{array}\right]&,\quad y=+1\\\\\vec{x}=\left[\begin{array}{cc}-x\\-1\end{array}\right]&,\quad y=-1\end{case
2021-01-22 22:54:25
490
原创 支持向量机(Support Vector Machine,SVM)
支持向量机(Support Vector Machine,SVM)理论部分SVM简介 SVM由一个叫做Vapnik的前苏联人发明于70年代中期。当时处于冷战期间,欧美与苏联不互通,等到苏联解体后,Vapnik来到美国,才逐渐发表了自己的研究成果。 SVM是一个小样本的方法,其原因是超平面的选取只与支持向量有关(后面会说什么是超平面和支持向量)。 SVM有着严密的数学推导,因此SVM的可解释性很好。 SVM从如何划分线性可分(Linear Separable)的样本集出发,推广到如何划分线性
2021-01-20 20:48:20
1371
原创 对比度受限的自适应直方图均衡化(CLAHE)
直方图均衡化(HE)简介图像的灰度级 在计算机中,一幅图像由若干个像素组成,这些像素有自己的位置和像素值. 一幅彩色图由RGB三个通道的像素组成,一副灰度图由单通道的像素组成. 在一副灰度图中,像素值的取值范围即为灰度级,在计算机中,灰度级为256,即[0, 255],灰度级为离散值.图像的灰度直方图 图像的直方图就是对图像的每个灰度级中有多少个像素点的统计,如下图:直方图均衡化(HE) 显然,对于一些图像而言,它的像素值可能集中分布在某一块区域,那么像素点与像素点之间的色差就会
2021-01-04 00:03:01
4628
原创 关于已存在64/32位无法安装office的问题
win+r 输入 Regedit找到HKEY_CLASSES_ROOT>> Installer>>Products找到所有"0000…F01FEC"项删除
2020-10-28 23:00:40
339
原创 k-means聚类算法及matlab实现(简单实现)
k-means简介 k-means算法也称k均值算法,是一种常用的聚类算法。聚类算法是研究最多、应用最广的一种无监督学习算法。 聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇里的样本可能有一些潜在的、共同的特质。 例如,对于给定样本集D={x1,x2,x3,…,xm}包含m个无标记样本,其中每个样本xi是一个n维的特征向量,聚类算法将样本集D划分为k个不相交的簇。其中,k个簇之间互不相交,且k个簇的并集为D。k-means原理k-mea
2020-05-24 20:08:33
44962
22
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人