使用实验室的服务器训练的时候总会遇到与其他同学共用GPU的情况,不知道最近怎么回事,强制中止程序后进程没有杀死,总结了一下查看GPU内存等的常用指令:
查看GPU内存
这个没人不知道吧?
nvidia-smi
在这里也能看到CUDA版本,上次服务器出了问题,报CUDA版本和CUDNN不匹配的问题,非常郁闷的是只是重启了服务器就不报错了,这些环境的匹配问题真的很麻烦,特别是公用的服务器,我往往没办法控制这些版本。学校的高性能计算集群的版本太低,我又不是管理员,导致很多包都没办法匹配,劝看到的同学搞深度学习的话一定要去一个计算资源充足的实验室。
在这个命令后可以看到进程:
我们接下来的操作都是关于进程的。
查看进程的归属
比如我们想知道PID是26337的进程是谁启动的
ps u 26337
这样就可以看到用户名了,我看到是自己的进程就可以放心大胆地杀死了。
杀死进程
杀死PID为26337的进程:
kill -9 26337
这些操作挺简单的,但是还很实用和常用的。