开机之后掉显卡如何排查?

40 天前
 zuotun
刚入手的 R730 + Tesla ,刚开机时显卡正常,但是过了几个小时 nvidia-smi 就显示找不到设备,并且在 lspci 中也是能看到显卡存在的。
显卡外观看上去正常没有焊油,电源也是 750W 的,诸位有什么头猪吗?
1068 次点击
所在节点    问与答
11 条回复
lixiaobai913
40 天前
设备管理器看一下显卡状态,更换显卡驱动试一下,BIOS 设置超频也有关系
Atukey
40 天前
显存可能虚焊了,跟你同样的问题,3070 改了 16G 显存后就间歇性黑屏,直到有一次黑屏重启后花屏了,拿去维修才知道是显存虚焊了。
kk2syc
40 天前
lspci 能看到说明显卡是没问题的,问题应该是 nvidia-smi
kk2syc
40 天前
baibaibai0126
40 天前
之前我们这有台双 4090 的设备,一直掉显卡,后来换了电源线才解决,说是功率的问题。头绪打成头猪是故意的吗。
zuotun
39 天前
@baibaibai0126 #5 总不能是手写输入的吧。但我只有一张卡还没开始干活呢,待机功率最高也就三十多瓦不至于因为这个掉吧。
Damn
39 天前
@baibaibai0126 一看就是五笔了吧。。
yy306525121
39 天前
有可能是电源电压不够
zuotun
37 天前
@lixiaobai913
@Atukey
@kk2syc
@yy306525121
目前算是解决了,主要是两个问题,一是 nvidia_drm 没有加载,二是风扇。在官方论坛找到了几乎一样的问题 https://forums.developer.nvidia.com/t/need-help-with-p100-installation-r730-dell/262247
这个问题实在是太离谱了,我自己想怎么都不会往风扇方面想啊。drm 是官方驱动 run 包的锅,风扇是掉卡的直接原因。
yy306525121
37 天前
@zuotun 呃,这谁能想得到啊哈哈哈哈哈
kk2syc
36 天前
@zuotun 感谢,长知识了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1099978

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX