如何识别HA防火墙非功能状态和故障转移的根本原因

如何识别HA防火墙非功能状态和故障转移的根本原因

41791
Created On 10/24/24 16:18 PM - Last Modified 10/15/25 21:01 PM


Objective


  • 确定HA防火墙无法正常工作的根本原因。
  • 将HA防火墙恢复到健康、冗余状态。


Environment


  • Palo Alto 防火墙
  • 支持的 PAN OS
  • 高可用性 (HA)活动/被动或活动/活动


Procedure


  1. 通过访问对等方,查找HA中防火墙无法正常状态的原因:
    1. 检查 UI:高可用性仪表板。导航至仪表板 > 高可用性小部件。

Peer non functional

    1. Check the output of the CLI command:
      > show high-availability all
      1. Look under the "Peer Information" for the State Reason.
         Peer Information:
            Connection status: up
            Version: 1
            Mode: Active-Passive
            State: non-functional (last 28 minutes)  
            State Reason: State synchronization mismatch   <<<<<
        
      2. HA中的防火墙进入非功能状态的各种原因列示如下:
        • 数据平面停机:数据平面退出故障
        • 数据平面关闭:brdagent 正在退出
        • 插槽 x:插槽关闭:brdagent 正在退出
        • 数据平面关闭:路径监视器故障
        • 链接断开
        • 路径向下
        • 策略推送至数据平面失败
        • 对等体之间的模式不匹配
        • 状态同步不匹配
        • A/A 模式设备 ID 重叠
        • A/A 模式数据包转发不匹配
        • A/A 模式会话加载共享不匹配
        • A/A 模式 QOS 配置同步不匹配
        • A/A 模式路由器配置同步不匹配
        • 同行版本不兼容,仅适用于全景图
        • URL供应商不匹配
        • HA3 链接已断开
        • HA2 IPv4/ IPv6与对等端不匹配
        • HA2-备份IPv4/ IPv6与对等体不匹配
        • HA2 端口与对等端口不匹配
        • HA2-备份端口与对等端口不匹配
        • 本地和对等 HA1 IP 不匹配
        • 对等体之间的组 ID 不匹配
        • 系统监视器故障
        • 等待暂定保持时间
        • 等待策略推送至数据平面
        • 等待状态同步完成
        • VM许可证与对等方不匹配
        • 与 VMS 的版本不匹配
        • GTP 启用与对等体不匹配
        • SCTP 启用与对等体不匹配
        • NAT过度订阅不匹配
        • 检测到驱动器错误
      3. The remediation steps for each of these causes are listed below:
        • 数据平面关闭:数据平面退出失败:要开始调查此问题,请打开支持案例
        • 数据平面关闭:brdagent 退出: 要开始调查此问题,请打开支持案例
        • 插槽 x:插槽关闭:brdagent 退出: 要开始调查此问题,请打开支持案例
        • 数据平面关闭:路径监视器故障:要开始调查此问题,请打开支持案例
        • 链接:

          由于链路组“链路检测”失败,防火墙无法运行。请参阅视频教程: HA中的链路组监控是什么?
          以及如何排除物理端口故障或链路故障

        • 路径向下:
          由于路径关闭,防火墙无法正常工作,请检查HA路径监控配置并排除故障:
          show high-availability path-monitoring
          Refer to 链路监控和路径监控行为 and HA链路和路径监视.

        • 策略推送至数据平面平面失败:要开始调查此问题,请打开支持案例
        • 对等体之间的模式不匹配:

          确保HA中的两个防火墙都配置了匹配的HA模式。
          1- 如果您的HA是 A/P,那么两个防火墙都需要在设备 >> 高可用性 >> 常规 >> 设置下具有HA模式,并设置为“主动被动”。

          2- 如果您的HA是 A/A,那么两个防火墙都需要在设备 >> 高可用性 >> 常规 >> 设置下具有HA模式,并设置为“主动主动”。
          确保在配置更改后提交防火墙配置。

        • 状态同步不匹配:
          请参阅HA主动/被动防火墙无法正常工作的原因“状态同步不匹配”。
        • A/A 模式设备 ID 重叠
          确保在每个对等点上将设备 ID 设置为不同的值(0 或 1):
          步骤 1:在设备 > 高可用性 > 常规中,编辑设置。
          步骤2:选择设备ID,如下所示:
          配置第一个对等体时,将设备 ID 设置为 0。
          配置第二个对等体时,将设备 ID 设置为 1。
        • A/A 模式数据包转发不匹配:
        • A/A 模式会话加载分配不匹配:
          要解决 A/A 模式数据包转发和会话加载共享不匹配的问题:

          步骤 1:配置会话所有者和会话设置。
          设备 > 高可用性 > HA通信中,编辑数据包转发。
          1- 对于会话所有者选择,请选择以下选项之一:
          第一个数据包?接收新会话第一个数据包的防火墙是会话所有者(推荐设置)。此设置可最大限度地减少 HA3 上的流量,并在对等端之间分担流量加载。
          主设备?处于活动-主要状态的防火墙是会话所有者。
          2- 对于会话设置,选择以下选项之一:
          IP 模数?防火墙对数据包中的源 IP 地址和目标IP 地址执行 XOR 运算,并根据结果选择哪个HA 对等防火墙设置会话。
          主设备?活动-主要防火墙设置所有会话。
          第一个数据包?接收新会话的第一个数据包的防火墙执行会话设置(推荐设置)。
          从会话所有者和会话设置的第一个数据包开始,然后根据加载分布,您可以更改为其他选项之一。
          IP 哈希?防火墙使用源IP 地址或源 IP 地址和目标IP 地址组合的哈希来分配会话设置责任。
          单击“OK”。
          https://docs.paloaltonetworks.com/pan-os/11-1/pan-os-admin/high-availability/set-up-activeactive-ha/configure-activeactive-ha

        • A/A 模式 QOS 配置同步不匹配:

          两个HA 对等上的不同QoS同步设置将导致一台设备无法正常工作(由于 A/A 模式QoS配置同步不匹配)。建议遵循以下步骤:

          步骤 1. 在主动-辅助设备上挂起。
          转到设备 > 高可用性 > 操作命令 > 单击“暂停本地设备”
          步骤2. 在两个HA 对等上启用QoS同步设置。
          转到设备 > 高可用性 > 主动/主动配置 > 数据包转发 > 单击“QoS同步”,然后提交
          步骤 3. 从 Active-primary 手动执行“同步到对等”
          移至指示板> 单击高可用性小部件下的“同步到对等点”
          步骤4. 在主动-辅助设备上启用功能。
          移至设备 > 高可用性 > 操作命令 > 单击“使本地设备正常运行”
          步骤5:提交Active-Primary框中的更改,错误就会消失。

        • A/A 模式路由器配置同步不匹配:确保HA Active/Active 中两个防火墙上的路由器具有相同的模式,并且您没有在一个防火墙上设置高级路由模式,而在另一个防火墙上没有设置。
        • URL供应商不匹配:
          请参阅高可用性对上不匹配的URL供应商
        • HA3 链接已断开:

          注意:如果 HA3 链路发生故障, HA A/A 中的其中一个防火墙将转换为非功能状态。为防止这种情况,请将具有两个或更多物理接口的链路聚合组 (LAG)接口配置为 HA3 链路。防火墙不支持 HA3 备份链路。具有多个接口的聚合接口将提供额外的容量和链路冗余,以支持HA对等体之间的数据包转发。
          有关如何排除 HA3 链路故障的更多详细信息,请参阅高可用性 - HA链路状态

          附加信息: HA3 链路是使用MAC-in- MAC封装的第 2 层链路。它不支持第 3 层寻址或加密。PA-7000 系列防火墙一对一地同步 NPC 之间的会话。在 PA-800 系列、PA-3200 系列和 PA-5200 系列防火墙上,您可以将聚合接口配置为 HA3 链路。聚合接口还可以为 HA3 链路提供冗余;您无法为 HA3 链路配置备份链路。在 PA-3200 系列、PA-5200 系列和 PA-7000 系列防火墙上,专用HSCI端口支持 HA3 链路。防火墙为穿越 HA3 链路的数据包添加专有数据包头,因此此链路上的 MTU 必须大于转发的最大数据包长度。”

        • HA2 IPv4/ IPv6与对等方不匹配:确保HA中两个防火墙上的 HA2配置具有匹配的设置和相同的IP 地址版本,并且仅与分配的 IP 地址不同。请参阅HA2配置。
        • HA2-backup IPv4/ IPv6与对等方不匹配:确保HA中两个防火墙上的 HA2-backup配置具有匹配的设置和相同的IP 地址版本,并且仅与分配的 IP 地址不同。请参阅HA2-backup配置。
        • HA2 端口与对等端口不匹配:确保HA中两个防火墙上的 HA2配置具有匹配的设置,并且仅在其分配的 IP 地址上有所不同。请参阅HA2配置。
        • HA2 备份端口与对等端口不匹配:确保HA中两个防火墙上的 HA2 备份配置具有匹配的设置,并且仅在其分配的 IP 地址上有所不同。请参阅HA2 备份配置。
        • 本地和对等 HA1 IP 不匹配:
          确保 HA1 IP 地址配置正确,且HA中的两个防火墙上的IP 地址不同。如果HA中的防火墙的配置是从全景推送的,请确保从全景推送的模板不会在HA中的两个防火墙上为 HA1配置相同的 IP 地址。如果需要,您可以选择本地HA设置配置或使用模板变量。
          参考:
          如何配置高可用性主动/被动的模板变量
          将防火墙HA对迁移到 Panorama 管理并重复使用现有配置配置主动/被动HA
          配置 Active/Active HA
        • 对等体之间的组 ID 不匹配:
          确保HA中两个防火墙的组 ID 相同。
          有关如何在HA环境中更改组 ID 的信息,请参阅如何在HA环境中更改组 ID.
        • 系统监视器故障:非常罕见的状态。
        • 等待暂时保持时间:过渡状态。
        • 等待策略推送至数据平面:过渡状态。
        • 等待状态同步完成:过渡状态。
        • VM许可证与对等方不匹配:
          请参阅HA因虚拟机许可证与对等方不匹配而无法正常运行,即使两个防火墙具有相同的许可证
        • 版本与 VMS 的对等版本不匹配:

          请参阅HA因虚拟机许可证与对等方不匹配而无法正常运行,即使两个防火墙具有相同的许可证

          该解决方案可能还需要 TAC 的升级或干预才能获得根访问权限。因为PAN-244673

        • GTP 启用与对等方不匹配:
          确保HA中的两个防火墙上都启用或禁用 GTP。
          启用或禁用GTP 状态检查需要提交并重新启动。
        • SCTP 启用与对等方不匹配:
          确保HA中的两个防火墙上都启用或禁用 SCTP。
          启用或禁用SCTP 安全需要提交。
        • NAT过度订阅不匹配:
          升级后,请参阅HA无法正常运行并出现错误消息:“Nat过度订阅不匹配”。
        • 检测到驱动器错误:
          如果驱动器仍处于故障状态,请重新安装日志驱动器,可能需要更换。打开支持案例并将支持转至内部 KB 层云管理器“日志驱动器故障”警报以了解更多详细信息。


Additional Information


如需更多帮助且无法找到正确的补救步骤,请打开支持案例

某些非功能状态需要打开支持案例的原因是,问题可能与软件问题或硬件问题有关。这些类型的案例需要进行故障排除,并且大多数情况下可能需要工程团队进一步调试问题:
支持团队需要检查的一些日志和显示命令:masterd.log (md.log)、mprelay-def-hb-fail.log、masterd_detail.log/DP、controlplane-down.log、mpreplay.log、brdagent.log、ha_agent.log、path_monitor_hb_fail_s .log、消息等...

show system packet-path-test status
show system files

因此建议在问题发生时立即收集HA中两个防火墙的技术支持文件并将其附加到支持案例中。



Actions
  • Print
  • Copy Link

    https://knowledgebase.paloaltonetworks.com/KCSArticleDetail?id=kA14u000000HELJCA4&lang=zh_CN&refURL=http%3A%2F%2Fknowledgebase.paloaltonetworks.com%2FKCSArticleDetail

Choose Language