查看GPU进程归属和杀死进程

2022/08/01 备忘 深度学习 共 420 字,约 2 分钟

使用实验室的服务器训练的时候总会遇到与其他同学共用GPU的情况,不知道最近怎么回事,强制中止程序后进程没有杀死,总结了一下查看GPU内存等的常用指令:

  1. 查看GPU内存

    这个没人不知道吧?

    nvidia-smi
    

    在这里也能看到CUDA版本,上次服务器出了问题,报CUDA版本和CUDNN不匹配的问题,非常郁闷的是只是重启了服务器就不报错了,这些环境的匹配问题真的很麻烦,特别是公用的服务器,我往往没办法控制这些版本。学校的高性能计算集群的版本太低,我又不是管理员,导致很多包都没办法匹配,劝看到的同学搞深度学习的话一定要去一个计算资源充足的实验室。

    在这个命令后可以看到进程:

    image-20220801153546508

    我们接下来的操作都是关于进程的。

  2. 查看进程的归属

    比如我们想知道PID是26337的进程是谁启动的

    ps u 26337
    

    这样就可以看到用户名了,我看到是自己的进程就可以放心大胆地杀死了。

  3. 杀死进程

    杀死PID为26337的进程:

    kill -9 26337
    

这些操作挺简单的,但是还很实用和常用的。

文档信息

Search

    Table of Contents