Ubuntu16.04+CUDA8.0+cudnn v5.1+opencv3.1(2.4.10)+caffe+GTX 1080Ti 机器配置记录

从暑假就开始装环境,一路踩坑,终于忍不了了决定在博客上记录一下,方便自己查看,也希望能帮到遇到同样问题的朋友。 

2017.11.23:

  1. caffe又不能训练了,怀疑是之前为了提取光流把opencv版本从3.1降到了2.4导致的,于是重新下载并编译了opencv3.1,但是仍然报错:

    E1123 09:29:26.794917 4138 common.cpp:114]Cannot create Cublas handle. Cublas won't be available.

    和F112311:12:25.336674 15624 cudnn_conv_layer.cpp:53] Check failed: status== CUDNN_STATUS_SUCCESS (4 vs. 0)CUDNN_STATUS_INTERNAL_ERROR

    百度说是显卡驱动的问题应该重装(http://blog.youkuaiyun.com/TaylorMei/article/details/77968197?locationNum=10&fps=1),但鉴于和驱动有关的东西更改以后系统会崩,而且之前可以测试mnist和fasterrcnn的时候就是这个驱动版本,于是打算把caffe删掉重新下载重新编译,重新下载的压缩文件同时保存在mypassport

  2. 但是删掉caffe用github新下载的重新编译,到mnist测试时还是报一样的错误。

  3. 用系统自带的软件和更新把显卡驱动改成了381.22,之前是384.98,结果cuda也不能用了

  4. 卸载了驱动和cuda(http://blog.youkuaiyun.com/u012436149/article/details/53163346),重新安装了一遍,版本和之前一样384和8.0,结果编译caffe还是runtest能过但一测试mnist就报错,错误同上

  5. 采用tsn(https://github.com/yjxiong/temporal-segment-networks#start-training)下的caffeaction编译(才知道这也是个caffe),把系统默认的opencv改成了2.4.10,编译通过,但run test 出现了如下错误:

    E1124 09:02:54.143685 3694 common.cpp:138]Cannot create Cublas handle. Cublas won't be available.

    F1124 09:02:54.165396 3694 common.cpp:201] Checkfailed: status == CUBLAS_STATUS_SUCCESS (1 vs. 0)CUBLAS_STATUS_NOT_INITIALIZED

  6. 这回test都不通过了,同样还是cublas的问题,此时光流还可以提取,于是计划先提取一些光流。

 

2017.11.24

采用http://blog.youkuaiyun.com/lenbow/article/details/51683783的方法卸载掉384.98,重装375.66(下载参考这篇https://zhuanlan.zhihu.com/p/27917556最后),安装驱动的.run文件时需要把系统默认语言改成英文,否则中文会显示成实心的菱形。按照此方法成功安装了375.66,直接用apt-get安装不知道为什么还会是384

然后卸载掉cuda再重装,重新按照教程走一遍直到编译,最后训练mnist数据集也终于能成功了!看来果然是显卡驱动版本的问题!

 

但是在训练tsn网络时还是有[libprotobuf ERRORgoogle/protobuf/text_format.cc:274] Error parsing text-formatcaffe.NetParameter: 19:12: Message type "caffe.LayerParameter" hasno field named "bn_param".

F1124 19:10:18.841284 32660upgrade_proto.cpp:88] Check failed:ReadProtoFromTextFile(param_file, param) Failed to parseNetParameter file:models/ucf101/tsn_bn_inception_rgb_deploy.prototxt这样的问题,已经更改了~/.bashrc中Python的路径,但还是有这个问题

 

重启电脑以后发现可以测试了!第二天过来看发现测试split1 rgb准确率是86.02%竟然比作者论文里的还要高一些!后来看作者说是因为单个模式的测试不够稳定,需要把rgb,flow,warpedflow结合在一起看

 

2017.11.29测试split1 flow结果:

Accuracy 87.63%

 

real 44m22.896s

user 38m20.592s

sys 4m4.524s

 

 

2017.12.12

开机以后在登录界面显示分辨率不正常,输密码以后显示系统出现问题,闪了一下又到了登录界面,nvidia-smi看了一下发现果然又是显卡的问题,于是按照之前的操作重新装了一遍375.66,现在又能用了,真的太不稳定了!ctrl+alt+F1的时候因为我系统语言是中文,好多提示又显示成了菱形图案,于是还更改了一下系统语言,决定以后就用英文版了,想想可能过阵子又得重装驱动吧。。。还好我安装包一直放在home期间重装驱动的时候也报了一个错“you appear to be running an X server”上一次安装驱动出现这个问题我记得是因为我没进tyy1,但这次进了依然有,解决办法:http://blog.youkuaiyun.com/eclipse_c/article/details/23302061。然后安装好驱动再sudo service start lightdm以后就回到了图形桌面,但关机的时候出现了“failed to start load kernel modules”,上一次装完也有这个问题,但因为没有影响使用所以就忽略了,现在想想估计就是这个原因导致我用着用着突然又崩了,于是用http://blog.youkuaiyun.com/hello_java_android/article/details/54091293的方法试了一下,目前还没有再次看到那个failed提示。

 

2017.12.15

昨天关机的时候发现还是有那个failed的提示,大概是之前的设置没有用吧,这个问题暂时还没解决,不是每次关机都出现,只有用的时间长一点再关机才会出现。

昨天想用手上ntu的数据微调kinetic预训练的网络,结果失败了,loss一直在4.6不收敛,后来试了一下微调ImageNet预训练的网络就成功了,前面不成功的原因可能是prototxt不匹配的缘故,应该要按照给出的deploy文件添加输入输出层自己写一个。附图训练的结果:

今天用这个训练好的模型在做测试,结果出来以后再来贴上。

结果出现了F1215 10:05:11.961401  9572 blob.cpp:481] Check failed: ShapeEquals(proto) shape mismatch (reshape not set)的错误,目前还在找原因。

查看了很多博客的解决方法,大部分情况都是在fine tune也就是训练的时候就报错了,而我这个有些不同,是训练没问题,测试才报错,于是用UCF101按照作者的步骤按部就班了一遍,发现也还在这个错误,无法测试,抱着试一试的心态,把训练的prototxt最后和动作

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值