AIOps 警报 - 高可用性 - ”HA对等连接状态”

AIOps 警报 - 高可用性 - ”HA对等连接状态”

62433
Created On 04/28/22 20:18 PM - Last Modified 08/23/23 22:21 PM


Symptom


来自 AIOps 关于高可用性的警报 -HA对等连接状态

Environment


AIOps 警报

Cause


如果输出> 全部显示高可用性节目同行信息作为 '连接状态:断开' 在 Active 或 Active-Primary 上firewall在里面HA对,AIOpsNGFW将向用户展示严重警报

虽然最常见的原因是HA没有被检测到的对等体是HA链接失效,可能还有其他原因,例如:
• 同行firewall无法处理/接收HA当时的心跳(例如:高CPU、高内存、资源问题、过度使用/DDoS、链接问题等)
• 同行firewall无法回复/发送HA当时的心跳(例如:高CPU、高内存、资源问题、过度使用/DDoS、链接问题等)
• HA 关联hardware问题(电缆故障、故障SFP, 故障端口,firewall背板问题,电气问题)
• 任何延迟或数据包丢失HA链接
• 2 个防火墙之间的地理距离HA对太长/太远HA电缆/SFP类型说明
• 可能发生的其他系统/流程问题


Resolution


  1. 确定确切的日期和时间戳HA故障转移 /HA发生故障
  1. 在里面Firewall网络GUI, 导航监视器>系统日志
  2. 导航到日期和时间戳HA发生故障,并确定当时是否有任何其他系统日志可能表明问题firewall总体健康状况(任何接口出现故障、进程退出、高CPU/内存利用率、链路和路径监控下降等)
  3. 如果发现其他事件可能导致HA连接中断,找到事件的根本原因并解决它
  1. 验证两个防火墙是否满足要求 HA
使用下面的文档,验证两个防火墙的型号是否完全相同,PAN-OS版本、接口、许可证、vsys 功能等。
主动/被动的先决条件HA
主动/主动的先决条件HA
  1. 确认HA对等连接关闭原因
查看以下输出CLI命令来确定原因HA两个防火墙上的对等连接关闭:
>show high-availability all
Group 1: 
 Mode: Active-Active
Local Information:
    Mode: Active-Active
    State: active-primary (last 1 hours)
    Last non-functional state reason: Dataplane down: brdagent exiting
Peer Information:
    Connection status: down
    Connection down reason: HA1 link went down
    Last non-functional state reason: Dataplane down: user triggered

其他可能连接中断原因包括:
  • 心跳ping不通
  • 永远无法连接到对等体
  • 检测到连接错误
  • 同行HA代理退出
  • 你好协议失败
  • 与对等方的能力交换失败
  • HA1 加密配置不匹配
  • SSH 隧道重置
 
提示:注意'也是一个好主意最后的非功能状态原因' 因为它通常可以帮助您找到失败的根本原因
  1. 验证状态HA接口并解决任何hardware或两个防火墙上的软件接口/链接问题
  1. 仪表板> 点击小部件>系统> 点击高的可用性
HA 健康的仪表板
 
  1. >显示高可用性接口 < ha1 |公顷 |哈3 >
显示高可用性接口 ha1
显示高可用性接口 ha3
  1. 验证支持的SFP正在使用
总是使用SFP来自受支持的列表SFP由 Palo Alto Networks 为HA端口。 不支持SFP尚未针对在帕洛阿尔托网络设备中的使用进行测试和验证。 如果不受支持SFP使用后,很可能会出现卡不上、抖动等问题。 帕洛阿尔托网络TAC如果不受支持,可能会拒绝支持SFP用来。 如果您当前使用的是不受支持的SFP, 将其替换为SFP从支持列表中SFP在继续之前的下方。

支持列表SFP的/收发器
https://live.paloaltonetworks.com/t5/operations-documentation/transceiver-history-reference-810-000096-00y-updated-on-03-23/ta-p/227987?attachment-id=10684
https://live.paloaltonetworks.com/t5/operations-documentation/hw-accessory-cross-reference-810-000077-0av-updated-on-03-23/ta-p/63422?attachment-id=10683
如何查看当前安装的 SFP
  1. 解决任何hardware/通过尝试已知良好/工作的物理链接问题hardware成分
  • 重新安装HA两个防火墙中的电缆
  • 重新安装HA港口SFP在两个防火墙中
  • 更换HA电缆具有已知良好的工作HA同类型电缆
  • 更换HA港口SFP与一个已知的好,工作HA港口SFP同类型
执行上述每个步骤后,检查是否HA链接问题仍然存在
  1. 解决任何管理平面或数据平面性能问题(高CPU,高内存,高数据包缓冲区/数据包描述符)
如果管理平面或数据平面由于某种原因变得太忙,firewall可能无法可靠地接收、处理或发送HA心跳消息。 使用以下步骤识别、排除故障并解决管理平面或数据平面利用率高的问题
  1. 审查监视器>系统日志大约在HA发生故障,以确定是否有任何高CPU/ memory / Packet Buffer / Packet Descriptor utilization during the time
  2. 检查以下输出CLI命令:
>显示系统资源- 显示电流MP CPU/内存使用情况
寻找任何高CPU或某个进程的高内存 - 确定是哪个进程(例如: mgmtsrvr ,用户ID ,代理, logrcvr ,路由,授权等),排查为什么该进程有高CPU/内存,并解决它
在下面的示例中,在firewall在安全Policy规则,进而导致 logrcvr 进程在firewall使用 100% 的管理平面CPU. 这导致了其他进程firewall有问题,例如firewallha_agent 无法响应HA心跳在那一刻。 一旦安全性中的日志记录量减少Policy规则,问题消失了,并且HA再次稳定下来
高的CPU在管理平面上的 logrcvr 进程上 - 显示系统资源如下
 
>显示正在运行的资源监视器- 显示电流DP CPU/Memory/Packet Buffer/Packet Descriptor usage

寻找任何高利用率CPU、数据包缓冲区、数据包描述符或内存 - 确定哪个资源具有高利用率并解决它
在下面的示例中,有大量流量(类似于 DDoS)通过firewall当时。 因此,数据平面CPU/packet buffers/packet descriptors 被大量使用,并且firewallHA无法处理心跳firewall接口正确。 一旦违规流量被识别并停止通过firewall,数据平面利用率回到正常水平,并且HA再次稳定下来
高的CPUDataplane 上的数据包缓冲区数据包描述符 - 显示正在运行的资源监视器
您可以使用下面的命令来检查这些日志文件MP/DP最近的日期+时间戳过去的使用值HA失败:
>less mp-log mp-monitor.log
>less dp0-log dp-monitor.log
  1. 使用资源在附加信息下面的部分进一步识别、排除故障和解决高管理平面或数据平面利用率
 
  1. 核实HA状态是健康的
  1. 一旦引起的问题HA已确定并解决首先要关闭的对等连接状态(HA链接问题,MP /DP资源问题、系统进程问题等),如果需要,取消挂起以前不健康的单元设备>高可用性>操作命令> 点击使本地设备具有高可用性功能
如何取消暂停 HA
  1. 核实HA在两个防火墙中再次显示健康
仪表板> 点击小部件>系统> 点击高可用性
仪表板小部件 -HA - 主动小学
仪表板小部件 -HA - 主动中学
 
> 全部显示高可用性
HA 健康 CLI
 
 
 


Additional Information


管理平面
示例:如何识别管理平面的高利用率
管理平面与数据平面进程
如何解释“显示系统资源”的输出
资源列表:性能和稳定性

数据平面
如何排除高数据平面利用率的故障
如何解决 DoS 攻击
如何解决高数据包缓冲区和数据包描述符问题
如何对高数据包描述符进行故障排除(片上)
资源列表:性能和稳定性

其他资源
如何对 Palo Alto Networks 防火墙进行故障排除(视频课程)
资源列表:性能问题故障排除
资源列表:高可用性配置和故障排除
资源列表:解决高可用性问题


Actions
  • Print
  • Copy Link

    https://knowledgebase.paloaltonetworks.com/KCSArticleDetail?id=kA14u000000oNlUCAU&lang=zh_CN&refURL=http%3A%2F%2Fknowledgebase.paloaltonetworks.com%2FKCSArticleDetail

Choose Language