Using neural network to combine measures of word semantic similarity for image annotation

介绍了一种结合神经网络和粒子群优化算法改进图像注释的方法,通过计算关键词之间的语义相似度来提高图像注释的准确性和召回率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载:http://blog.youkuaiyun.com/zhaoxinfan/article/details/8445569

标题:Using neural network to combine measures of word semantic similarity for image annotation.这篇论文是人工智能老师刘峡壁学生作品,正好和上课讲的内容相关,其中用到了神经网络,体现出了神经网络在解决问题时的优越性。

下面是摘抄的一些要点:

1、refine image annotation method

这里提到了对图像注释的改进,图像注释就是用一些词对一幅图进行描述,做到这一点就能对图像进行分类并且为搜索提供很大的方便。然而如何选择最接近图像的词是很难的,一般是通过比较关键词直接的语义实现。最主流的手段主要有以下三种: wordNet based, training data based, web search based.从单词意思就能推断出这些注释用词分别来自词库,训练集和网页搜索。当然,如果单单用一种方法效果很可能不是很好,往往是把这三种方法结合起来使用,而本文就是提出了一种结合的方法。

2、combining semantic similarity measures with FNN

首先解释FNN: feed-forward neural network. 按照神经网络的表现形式,也分为输入层,隐含层,输出层。Each input neuron of the FNN receives a single measure of word-to-word similarity, and its output is the combined measure which is used to refine the image annotation within the Random Walker with Restarts (RWR) framework.其中提到的RWR就是带重启的随机游走框架,在这里对节点间的相似度进行衡量。文中用到的FNN一共三层,如下图:

3、Refining Image Annotation by RWR

这里包括两个阶段:

In the first stage, the probability of being each keyword for an image is computed by using some image content analysis technique.其中关键词按照可能性进行降序排列,选出最前面的N个作为输入。

In the second stage, the Random Walk with Restarts (RWR) algorithm is applied to refine the probability of each candidate annotation, where the semantic similarities between two keywords are measured by our FNN method.

做完这两步之后,再次按照可能性进行降序排列,排在最前面的N个关键词就是最终的待选注释,显然越靠前对图像的准确性描述越高。

RWR的算法如下:

In the RWR algorithm, the initial probabilities of all the keywords are considered as the restart vector Pi . Pi is normalized to ensure the sum of all elements in PI is one.

Starting from Pi , the algorithm is performed to reach the steady state probability vector Ps . Letα be the probability of restarting the random walk, Sw be the matrix of word-toword semantic similarities. Sw is column-normalized to ensure that the sum of each column in Sw is one. Then the steady state probability vector Ps satisfies the following equation:

4、traning FNN with PSO

现在知道了处理步骤,但是有一点没有考虑,那就是FNN凭什么就能判断两个关键词的相似度,显然FNN是需要通过训练才能做到这一点,这一点和神经网络通过训练得到权重是一样的,FNN也是通过权重来判断相似度。这里使用的训练算法是PSO(particle swarm optimization)粒子群优化算法。训练过程如下:

The position of each particle represents a possible FNN configuration, i.e., its weights. The fitness value of a particle is the accuracy evaluation of image annotation by using the corresponding FNN to measure word-to-word semantic similarities within the RWR framework.

明确了这一点,下面的内容和一般的粒子群优化算法一样,对positonvelocity进行修正,确保最终达到全局最优。直接截图:

 

算法步骤如下:

Step1. Generate a swarm of particles with random positions and velocities.

Step2. For each particle, perform the following steps:

Step2.1. Set the weights of the FNN according to the position of the particle.

Step2.2. Use the FNN to compute the matrix of semantic similarities between keywords.

Step2.3. Perform RWR to get the annotations for training images.

Step2.4. Evaluate the annotation accuracy and take the evaluation value as the fitness of the particle.

Step3. Record the best position of each particle and the globally best position of the swarm.

Step4. Update the position and velocity of each particle by using (3)-(4).

Step5. If a sufficiently good fitness or a maximum number of iterations is reached, then the algorithm stops, or else go to Step2.

5、image content analysis

既然提出了方法,最重要的自然是用实验验证该方法。首先,我们需要通过图像内容找出关键词,得到我们的候选集,然后再执行我们的方法。基于图像内容找到关键词是采用Max-Min Posterior Pseudo-probabilities (MMP) method.具体如下:

Firstly, an image is represented as an 80-D feature vector which consists of 9-D color moments and 71-D Gabor based texture features. We then assume that the feature vectors extracted from all images with the same keyword are of the distribution of Gaussian mixture model (GMM). Finally, the confidence of annotating the image with the keyword wi is computed as the posterior pseudoprobability which takes values in [0,1] and is defined as

然后可以进行比较:

Given a keyword C, let Ih be the set of images with ground-truth annotation C , Ia be the set of images annotated as C by our annotation algorithm, then the precision rate and the recall rate for keyword C are computed

respectively. The average precision rate Ap and average recall rate AR over all the keywords are calculated. The consequent F1 for evaluating the image annotation accuracy is

通过实际数据比较,得出这种方法要比MNP加上某种单纯的方法好。

 

 

小结:这篇论文又是对某类方法的改进,其中加入了神经网络和群智能的一些知识,效果不错。显然,有些知识还是要学会使用,也许就是在某类难解的问题中加了一些别人都知道东西就能产出一篇优秀的论文,悟才是关键。

资源下载链接为: https://pan.quark.cn/s/d9ef5828b597 在本文中,我们将探讨如何通过 Vue.js 实现一个带有动画效果的“回到顶部”功能。Vue.js 是一款用于构建用户界面的流行 JavaScript 框架,其组件化和响应式设计让实现这种交互功能变得十分便捷。 首先,我们来分析 HTML 代码。在这个示例中,存在一个 ID 为 back-to-top 的 div 元素,其中包含两个 span 标签,分别显示“回到”和“顶部”文字。该 div 元素绑定了 Vue.js 的 @click 事件处理器 backToTop,用于处理点击事件,同时还绑定了 v-show 指令来控制按钮的显示与隐藏。v-cloak 指令的作用是在 Vue 实例渲染完成之前隐藏该元素,避免出现闪烁现象。 CSS 部分(backTop.css)主要负责样式设计。它首先清除了一些默认的边距和填充,对 html 和 body 进行了全屏布局,并设置了相对定位。.back-to-top 类则定义了“回到顶部”按钮的样式,包括其位置、圆角、阴影、填充以及悬停时背景颜色的变化。此外,与 v-cloak 相关的 CSS 确保在 Vue 实例加载过程中隐藏该元素。每个 .page 类代表一个页面,每个页面的高度设置为 400px,用于模拟多页面的滚动效果。 接下来是 JavaScript 部分(backTop.js)。在这里,我们创建了一个 Vue 实例。实例的 el 属性指定 Vue 将挂载到的 DOM 元素(#back-to-top)。data 对象中包含三个属性:backTopShow 用于控制按钮的显示状态;backTopAllow 用于防止用户快速连续点击;backSeconds 定义了回到顶部所需的时间;showPx 则规定了滚动多少像素后显示“回到顶部”按钮。 在 V
资源下载链接为: https://pan.quark.cn/s/9e7ef05254f8 以下是简化后的内容: 程序集变量 计数器:整数型 文本发送计次:整数型 子程序 __启动窗口_创建完毕 _手动发送数据_被单击 停止发送 发送预处理 判断端口是否启动成功,失败则提示并返回 根据组合框选择的进制类型,将编辑框内容转换后发送 发送失败则提示并返回 进制转换(被转换文本,被转换进制,转换的进制) 检查进制范围,错误则返回提示 规范参数,逐字符检查是否符合进制要求,不符合则返回错误提示 若进制相同直接返回原文本 否则进行进制转换并返回结果 _退出_被单击销毁 _组合框_端口号_列表项被选择 停止发送 设置端口号 _组合框_波特率_列表项被选择 停止发送 设置波特率 _组合框_数据位_列表项被选择 停止发送 设置数据位数 _组合框_校验_列表项被选择 停止发送 设置奇偶校验方案 _组合框_停止位_列表项被选择 停止发送 设置停止位数 发送预处理 停止发送 设置波特率、端口号、数据位数、奇偶校验方案、停止位数 根据奇偶校验方案设置校验标志 _选择框_DTR_被单击 根据选中状态设置信号操作 _选择框_RTS_被单击 根据选中状态设置信号操作 _选择框_Break_被单击 根据选中状态设置信号操作 _编辑框_发送周期_内容被改变 若时钟标志选中,设置时钟周期 _选择框_时钟标志_被单击 若选中,设置发送方式为时钟模式,启动发送并设置时钟周期 否则,停止发送,设置时钟周期为0 _组合框_发送方式_列表项被选择 根据选择设置时钟标志和时钟周期 _端口_发送数据_收到信号 _端口_接收数据_收到信号 _端口_接收数据_数据到达 根据接收数据的进制选择,将数据转换后显示在编辑框中 _时钟1_周期事件 根据发送方式和进制选择,周期性发送数据 打开并读入文件 打开文件,读取内容到编辑框 _打开
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值