Using neural network to combine measures of word semantic similarity for image annotation

介绍了一种结合神经网络和粒子群优化算法改进图像注释的方法,通过计算关键词之间的语义相似度来提高图像注释的准确性和召回率。
部署运行你感兴趣的模型镜像

转载:http://blog.youkuaiyun.com/zhaoxinfan/article/details/8445569

标题:Using neural network to combine measures of word semantic similarity for image annotation.这篇论文是人工智能老师刘峡壁学生作品,正好和上课讲的内容相关,其中用到了神经网络,体现出了神经网络在解决问题时的优越性。

下面是摘抄的一些要点:

1、refine image annotation method

这里提到了对图像注释的改进,图像注释就是用一些词对一幅图进行描述,做到这一点就能对图像进行分类并且为搜索提供很大的方便。然而如何选择最接近图像的词是很难的,一般是通过比较关键词直接的语义实现。最主流的手段主要有以下三种: wordNet based, training data based, web search based.从单词意思就能推断出这些注释用词分别来自词库,训练集和网页搜索。当然,如果单单用一种方法效果很可能不是很好,往往是把这三种方法结合起来使用,而本文就是提出了一种结合的方法。

2、combining semantic similarity measures with FNN

首先解释FNN: feed-forward neural network. 按照神经网络的表现形式,也分为输入层,隐含层,输出层。Each input neuron of the FNN receives a single measure of word-to-word similarity, and its output is the combined measure which is used to refine the image annotation within the Random Walker with Restarts (RWR) framework.其中提到的RWR就是带重启的随机游走框架,在这里对节点间的相似度进行衡量。文中用到的FNN一共三层,如下图:

3、Refining Image Annotation by RWR

这里包括两个阶段:

In the first stage, the probability of being each keyword for an image is computed by using some image content analysis technique.其中关键词按照可能性进行降序排列,选出最前面的N个作为输入。

In the second stage, the Random Walk with Restarts (RWR) algorithm is applied to refine the probability of each candidate annotation, where the semantic similarities between two keywords are measured by our FNN method.

做完这两步之后,再次按照可能性进行降序排列,排在最前面的N个关键词就是最终的待选注释,显然越靠前对图像的准确性描述越高。

RWR的算法如下:

In the RWR algorithm, the initial probabilities of all the keywords are considered as the restart vector Pi . Pi is normalized to ensure the sum of all elements in PI is one.

Starting from Pi , the algorithm is performed to reach the steady state probability vector Ps . Letα be the probability of restarting the random walk, Sw be the matrix of word-toword semantic similarities. Sw is column-normalized to ensure that the sum of each column in Sw is one. Then the steady state probability vector Ps satisfies the following equation:

4、traning FNN with PSO

现在知道了处理步骤,但是有一点没有考虑,那就是FNN凭什么就能判断两个关键词的相似度,显然FNN是需要通过训练才能做到这一点,这一点和神经网络通过训练得到权重是一样的,FNN也是通过权重来判断相似度。这里使用的训练算法是PSO(particle swarm optimization)粒子群优化算法。训练过程如下:

The position of each particle represents a possible FNN configuration, i.e., its weights. The fitness value of a particle is the accuracy evaluation of image annotation by using the corresponding FNN to measure word-to-word semantic similarities within the RWR framework.

明确了这一点,下面的内容和一般的粒子群优化算法一样,对positonvelocity进行修正,确保最终达到全局最优。直接截图:

 

算法步骤如下:

Step1. Generate a swarm of particles with random positions and velocities.

Step2. For each particle, perform the following steps:

Step2.1. Set the weights of the FNN according to the position of the particle.

Step2.2. Use the FNN to compute the matrix of semantic similarities between keywords.

Step2.3. Perform RWR to get the annotations for training images.

Step2.4. Evaluate the annotation accuracy and take the evaluation value as the fitness of the particle.

Step3. Record the best position of each particle and the globally best position of the swarm.

Step4. Update the position and velocity of each particle by using (3)-(4).

Step5. If a sufficiently good fitness or a maximum number of iterations is reached, then the algorithm stops, or else go to Step2.

5、image content analysis

既然提出了方法,最重要的自然是用实验验证该方法。首先,我们需要通过图像内容找出关键词,得到我们的候选集,然后再执行我们的方法。基于图像内容找到关键词是采用Max-Min Posterior Pseudo-probabilities (MMP) method.具体如下:

Firstly, an image is represented as an 80-D feature vector which consists of 9-D color moments and 71-D Gabor based texture features. We then assume that the feature vectors extracted from all images with the same keyword are of the distribution of Gaussian mixture model (GMM). Finally, the confidence of annotating the image with the keyword wi is computed as the posterior pseudoprobability which takes values in [0,1] and is defined as

然后可以进行比较:

Given a keyword C, let Ih be the set of images with ground-truth annotation C , Ia be the set of images annotated as C by our annotation algorithm, then the precision rate and the recall rate for keyword C are computed

respectively. The average precision rate Ap and average recall rate AR over all the keywords are calculated. The consequent F1 for evaluating the image annotation accuracy is

通过实际数据比较,得出这种方法要比MNP加上某种单纯的方法好。

 

 

小结:这篇论文又是对某类方法的改进,其中加入了神经网络和群智能的一些知识,效果不错。显然,有些知识还是要学会使用,也许就是在某类难解的问题中加了一些别人都知道东西就能产出一篇优秀的论文,悟才是关键。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

【无线传感器】使用 MATLAB和 XBee连续监控温度传感器无线网络研究(Matlab代码实现)内容概要:本文围绕使用MATLAB和XBee技术实现温度传感器无线网络的连续监控展开研究,介绍了如何构建无线传感网络系统,并利用MATLAB进行数据采集、处理与可视化分析。系统通过XBee模块实现传感器节点间的无线通信,实时传输温度数据至主机,MATLAB负责接收并处理数据,实现对环境温度的动态监测。文中详细阐述了硬件连接、通信协议配置、数据解析及软件编程实现过程,并提供了完整的MATLAB代码示例,便于读者复现和应用。该方案具有良好的扩展性和实用性,适用于远程环境监测场景。; 适合人群:具备一定MATLAB编程基础和无线通信基础知识的高校学生、科研人员及工程技术人员,尤其适合从事物联网、传感器网络相关项目开发的初学者与中级开发者。; 使用场景及目标:①实现基于XBee的无线温度传感网络搭建;②掌握MATLAB与无线模块的数据通信方法;③完成实时数据采集、处理与可视化;④为环境监测、工业测控等实际应用场景提供技术参考。; 阅读建议:建议读者结合文中提供的MATLAB代码与硬件连接图进行实践操作,先从简单的点对点通信入手,逐步扩展到多节点网络,同时可进一步探索数据滤波、异常检测、远程报警等功能的集成。
内容概要:本文系统讲解了边缘AI模型部署与优化的完整流程,涵盖核心挑战(算力、功耗、实时性、资源限制)与设计原则,详细对比主流边缘AI芯片平台(如ESP32-S3、RK3588、Jetson系列、Coral等)的性能参数与适用场景,并以RK3588部署YOLOv8为例,演示从PyTorch模型导出、ONNX转换、RKNN量化到Tengine推理的全流程。文章重点介绍多维度优化策略,包括模型轻量化(结构选择、输入尺寸调整)、量化(INT8/FP16)、剪枝与蒸馏、算子融合、批处理、硬件加速预处理及DVFS动态调频等,显著提升帧率并降低功耗。通过三个实战案例验证优化效果,最后提供常见问题解决方案与未来技术趋势。; 适合人群:具备一定AI模型开发经验的工程师,尤其是从事边缘计算、嵌入式AI、计算机视觉应用研发的技术人员,工作年限建议1-5年;熟悉Python、C++及深度学习框架(如PyTorch、TensorFlow)者更佳。; 使用场景及目标:①在资源受限的边缘设备上高效部署AI模型;②实现高帧率与低功耗的双重优化目标;③掌握从芯片选型、模型转换到系统级调优的全链路能力;④解决实际部署中的精度损失、内存溢出、NPU利用率低等问题。; 阅读建议:建议结合文中提供的代码实例与工具链(如RKNN Toolkit、Tengine、TensorRT)动手实践,重点关注量化校准、模型压缩与硬件协同优化环节,同时参考选型表格匹配具体应用场景,并利用功耗监测工具进行闭环调优。
(清零流程:进维修模式—打开软件清零) 一、清零操作 第一步:打印机进入维修模式(查看维模式进法)。 第二步:废墨计数器:一般选【主要】 ,如报错002请选择【全】或【其它选项】。清零须用USB线把打印机接上电脑,进入维修模式放上纸,再点【清零】操作,提示【恭喜您!成功啦!】重开打印机清零完成。 报错提示: 1. 如报错006 001 005说明没进到维修模式。 2. 报错009说明硬件有问题,可点【读取】查看错误代码, 正常关闭打印机排除硬件问题再操作。 3. 报错002说明有废墨计数器未选对或软件不支持该型号。 4. 打印机有其它硬件问题时,点了【清零】后软件变灰不提示成功,过一分钟直接关打印机重开即可。 二、维修模式的进法(不同机型进法不同,认真阅读再操作) [G1800 G2800 G3800 G4800 IP8780 IP7280 IX6880 IX6780 MG3580 MG3680 TS5080 TS6080 TS6020......]维修模式方法如下: 1.先关闭电源 打印机放纸 2.按下【停止】键,再按【电源】 键。(两键都不松开) 3.当电源灯点亮时,不松【电源】键,只松【停止】键 4.连按5次【停止】键,两键同时松开。 5.电源灯长亮,进入成功。(有时两个灯) [G1810 G2810 G3810 G4810 G5080 G6080 G8080 GM2020 GM4080 TS3380 TS3480 TSS708 TS5120 TS5320 TS5180 TS6120 TS6180 TS6280 TS6220 TS6380 TS6320 TR4580 TR4520 TR7520] 维修模式方法如下: 1.先关闭打印机电源,机子里放纸,按下【电源】键不放手。 2.当电源灯亮时,不松【电源】键,连按5次【停止】键,两键同时松开。 3.电源灯长亮
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值