跳转至

华南排错

基本资料手册

手册?不要异想天开了,国光我翻遍了国内外没看到华南官方有详细的手册,然后我就去找客服要相关资料,每次客服都发给我一个图,巧的是,问了两次客服,结果发的图还都不一样,版本迭代这么快?反正不管了,国光我把我的华南 X99 F8D-PLUS 要到的相关资料都贴下边了,大家也可以参考一下:



国光我的主板应该是旧款的 X99-F8D PLUS,问了一下客服新款改进了什么,客服就说换了一下 PCIe X16 的位置,其他都一样。

PCIe 插槽记录

  1. 至下而上慢慢加设备测试,因为下面三个 (4、5、6槽)是 CPU0 的 PCIe 通道,而(1、2、3槽)是 CPU1 的 PCIe 通道
  2. 插满 PCIe 的情况下,无法识别到 WD 1500 的 Raid 卡,怀疑是 X540 网卡问题,此时在直接插在 3 号插槽的情况下,手动将 PCIe 是速度设置为 Gen2 解决了这个问题:
  3. IIO1 PCIe 设置 - IOU2(Port 1) 设置 PCIe 宽度为 x8
  4. Socket 1 PcieDo1F0 - Port 1A - PCI-E Port Link - Enable
  5. Socket 1 PcieDo1F0 - Port 1A - Link Speed - Gen 2(5 GT/s)
  6. Socket 1 PcieDo1F0 - Port 1A - Override Max Link Width - x8
  7. Socket 1 PcieDo1F0 - Port 1A - Fatal Err Over - Enable
  8. Socket 1 PcieDo1F0 - Port 1A - Corr Err Over - Enable
  9. 浪潮 X540-T2 万兆网卡不可以使用显卡延长线外接(本打算延长出来好加风扇改良散热),尝试了几根不同带宽品牌的延长线均失败了,PVE 正常开机(伴随着很多 AER 报错)但是无法识别到这个网卡,而且 BIOS 里面手动将 PCIe 速度降低到 GEN2 也无法解决报错问题。
  10. PCIe x16 插槽(2槽)使用 PCIe x16 延长线出来外接 1 个 PCIe x16 转 x8 x4 x4 拆分卡,其中 x4 插槽插 PCIe 转 NVME 转接卡大概率报错,测试使用山泽的转接卡报错比使用ZOMY转接卡的报错要少一点,但是插拆分卡的 PCIe x8 接口依然报错,插 PCIe x4 则不报错(后面发现了,使用垃圾 山泽不报错的原因是因为开机根本无法识别到硬盘了,太离谱)
  11. 走 PCIe x1 插槽的无线网卡无论品牌均不会引起报错,使用各种各样转接卡都可以正常使用
  12. RX 580 比 RTX 3060 更不容易引起报错,1、2 槽插 RTX 3060 必报 AER 日志错误,但是 RX 580 就不会
  13. GT 630 更容易引起玄学问题,可能是卡比较老的原因,感觉只适合做亮机卡,放 PVE 里面会增加许多排错难度,后期足够稳定了考虑再加进去
  14. 当电脑无法开机进 BIOS 的时候,拔掉,1、2、3 槽的 PCIe 设备基本上可以重新进 BIOS,然后再慢慢加设备测试就行。
  15. 拆分卡插 NVME 转接卡也比较挑 SSD,有的 SSD 直接无法识别,有的 SSD 可以识别但是依然祖传 AER 报错,合适的NVME转接卡配合适的SSD然后巧巧插在合适的槽位就不会报 AER 报错,所以大量的排列组合少不了。

PCIe 折腾结果

下图虽然看下去比较简单,但却让我国光重启百来次,然后断断续续花费了几周时间才总结出来的最终完美的插法(Dmesg 无异常报错、开机正常、各硬件位置不干扰):

上图还考虑到了不同 PCIe 设备的发热问题,比如就没有让 X540 万兆网卡和 RTX 3060 挨着,否则发热量并不会少,下图是改进散热后的标记图:

开机通电自启

作为服务器肯定是不能随便关机的,所以我们需要一个备用的断电后来电的自动开机方案,华南 X99 主板支持设置通电后的电源状态。

BIOS 设置如下,找到【IntelRCSetup】-【PCH Configuration】-【PCH Devices】-【Restore AC after Power Loss】设置为【Power on】即可,表示断电后恢复的话,让电脑自动开机。

然后配合 1 个小米插座,就可以做到哪怕断电了,也可以使用 Siri 来唤醒工作站了:

解决博通报错

博通的 BCM 94360CD 是黑苹果顶级免驱网卡,但是 PVE 下使用的时候会发现报错了:

主要报错内容为:

INI
bcma: Unsupport SPROM revision
bcma-pci-bridge

看样子好像是 PVE 宿主机尝试驱动我们这 博通 BCM 94360CD 无线网卡,我们没有这种使用场景,无线网卡是要直通给我的 黑苹果 VM 使用的,所以我们得想办法让 PVE 不驱动它。

Bash
# 查看无线网卡
lspci -nn | grep -E "Network|Wireless|Adapter"

# 查看总线为 82:00.0 的无线网卡详情
lspci -s 82:00.0 -v

发现 BCM 94360CD 所使用的驱动为 bcma

那么将其添加到 PVE 驱动加载的黑名单即可:

Bash
echo "blacklist bcma" >> /etc/modprobe.d/blacklist.conf

国光我最终完整的 PVE 驱动黑名单供大家参考:

Bash
$ cat /etc/modprobe.d/blacklist.conf                 
blacklist nvidiafb
blacklist nouveau
blacklist nvidia
blacklist radeon
blacklist amdgpu
blacklist snd_hda_intel
blacklist snd_hda_codec_hdmi
blacklist i915
blacklist bcma

最后更新: 2023-03-06