基于DenseCap的字幕生成

本文介绍了一种图像标注技术DenseCap的应用实践过程,包括环境搭建、模型下载及使用方法,并分享了运行实例和注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

图像标注–看图说话(Image Captioning)
这其实是机器视觉中的一个领域:图像标注
0.paper地址:
http://cs.stanford.edu/people/karpathy/densecap/
github地址:
https://github.com/jcjohnson/densecap
1.下载
git clone –recursive https://github.com/jcjohnson/densecap #代码
如果网络问题导致clone失败,可以在clone的时候选择depth=1。
2.环境依赖
安装torch环境:
http://torch.ch/docs/getting-started.html

安装其他依赖环境:
luarocks install nn
luarocks install image
luarocks install lua-cjson
luarocks install https://raw.githubusercontent.com/qassemoquab/stnbhwd/master/stnbhwd-scm-1.rockspec
luarocks install https://raw.githubusercontent.com/jcjohnson/torch-rnn/master/torch-rnn-scm-1.rockspec
luarocks install sys #需要多加一项
注意,各个步骤的安装由于是网络安装所以,可能存在由于网络原因而导致的安装失败,切记安装完check下界面是否有报错信息,如有报错,重新安装。
没有gpu 忽略
luarocks install cutorch
luarocks install cunn
luarocks install cudnn
luarocks install cudnn

如果在安装完torch之后,用luarocks 进行其他相关依赖包安装时候,报错:
这里写图片描述
如果切换到root账号之后,会提示,luarocks没有安装。。。
这里写图片描述
这些都说明torch安装过程中有些依赖没有安装成功,所以需要重新安装torch。

3.下载模型
sh scripts/download_pretrained_model.sh
这部分可能很慢:
这里写图片描述
4.修改代码
run_model.lua 代码29行自行修改Model位置

5.运行
cpu 运行
th run_model.lua -input_image imgs/mytea.jpg -gpu -1
gpu 运行
th run_model.lua -input_image imgs/mytea.jpg

6.查看效果
cd vis
python -m SimpleHTTPServer 8181
访问:http://localhost:8181/view_results.html
就可以查看结果:
这里写图片描述
这字幕加得没有那么理想,确实,可能有些人都认不出这是泡茶场景。所以,DenseCap识别为coffee等也是情有可原。可以再选择其他图像来测试。需要注意的是,图像太大会直接让内存爆掉,所以尽量根据自己的配置对图像的尺寸做出调整。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值