缓解WHEA 18意外重启或死机问题

我目前使用的AMD 5900X处理器于2020年12月购入, 至今已使用四年余。上周日(2月9日), 我的电脑在我使用的时候突然自动重启, 且没有播放任何动画, 因此我怀疑其为非预期重启, 而非Windows系统更新导致。在重新进入系统后, 我立即打开事件查看器, 经逐条分析日志, 我注意到如下两条日志可能是重启的原因:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
来源: WHEA-Logger
事件ID: 18
 
出现致命硬件错误。
 
由以下组件报告: 处理器核心
错误源: Machine Check Exception
错误类型: Cache Hierarchy Error
处理器 APIC ID: 0
 
来源: WHEA-Logger
事件ID: 18
 
出现致命硬件错误。
 
由以下组件报告: 处理器核心
错误源: Machine Check Exception
错误类型: Bus/Interconnect Error
处理器 APIC ID: 0

此时, 我还侥幸地认为这是系统连续运行时间过长而产生的意外情况(如比特翻转), 故没有进一步处理, 决定继续观察。

后来, 我的电脑又几次出现上述情况或是突然卡死(画面卡住不动)的情况, 至此, 我发觉事情不太对劲。因此, 我进行了烤机, 结果烤了一个小时后系统仍然工作正常。我又将BIOS、Windows 10以及显卡驱动都更新到最新版, 结果问题依旧。

然后, 我又尝试了启动Linux系统, 想看看出问题的时候Linux内核有何报错。结果, 系统卡死在了启动界面, 或是启动后用着用着突然卡死, 似乎比Windows更容易触发这个问题。后来, 经cyy和猴哥指点, 这个问题似乎容易在处理器低负载的情况下触发, 因为此时主板输出的核心电压更低, 而Linux的后台进程更少, 空闲时的功耗更低, 因此也就更容易触发这个问题。

继续研究后, 我发现在BIOS中关闭“Global C-State Control”似乎可以缓解这一问题, 但是功耗大约会增加35W。此外, 在BIOS的“PBO—Curve Optimizer—Per Core”中将出问题的核心(可以由上述报错信息中的“处理器 APIC ID”得到)的电压抬高似乎也可以缓解这一问题(最大可以设置为30, 我随意地设置成了15), 功耗似乎相比没有设置时没有明显变化。最后, 我使用了第二个方法临时缓解了这一问题, 但还需进一步观察。

奇怪的是, 网友们似乎都是买回来没几天就出现这个问题, 而我是使用了四年多才出现这个问题, 猜测是我一开始运气较好, 而现在核心老化所致?

特此记录。

参考资料:

  1. https://nga.178.com/read.php?tid=26233597
  2. https://community.amd.com/t5/pc-processors/ryzen-9-5900x-and-whea-logger-error/m-p/585469
  3. https://www.overclock.net/threads/replaced-3950x-with-5950x-whea-and-reboots.1774627/
发表评论?

2 条评论。

  1. 我遇到了同样的问题···请问你设置后情况好转了吗?

发表评论

注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

:wink: :twisted: :roll: :oops: :mrgreen: :lol: :idea: :evil: :cry: :arrow: :?: :-| :-x :-o :-P :-D :-? :) :( :!: 8-O 8)

本文链接:https://twd2.me/archives/19694QrCode