AIOps 警报 - 高可用性 - ”HA备份”

AIOps 警报 - 高可用性 - ”HA备份”

15200
Created On 05/04/22 16:19 PM - Last Modified 08/23/23 22:13 PM


Symptom


HA1-备份链路处于关闭状态
HA2-备份链路处于关闭状态


Environment


PAN-OS

Cause


如果输出> 全部显示高可用性节目HA1备份控制链路或者HA2备份数据链路作为'链接状态:关闭'在 Active 或 Active-Primary 上firewall在里面HA对,AIOpsNGFW将向用户展示警告警报

虽然最常见的原因是HAlinks going down是物理链路本身的问题,可能还有其他原因,例如:
• 任何一个firewall无法处理/接收HA当时该链接的心跳(例如:高CPU、高内存、资源问题、过度使用/DDoS、链接问题等)
• 任何一个firewall无法回复/发送HA当时该链接的心跳(例如:高CPU、高内存、资源问题、过度使用/DDoS、链接问题等)
• HA 关联hardware问题(电缆故障、故障SFP, 故障端口,firewall背板问题,电气问题)
• 2 个防火墙之间的地理距离HA对太长/太远HA电缆/SFP类型说明
• 可能发生的其他系统/流程问题


Resolution


  1. 确定确切的日期和时间戳HA1备份链接或HA2备份链接下去了
    1. Firewall GUI:监视器>日志点击系统
    2. 按以下筛选日期时间戳HA1备份或者HA2 备份链接已关闭
    3. 回顾时间HA备份链接问题以查看是否有任何其他接口、进程、资源或系统问题发生在firewall大约在那个时候,这可能表明整体健康问题firewall或任何相关事件
    4. 如果发现其他可能导致 HA1-Backup 或 HA2-Backup 链接断开的事件,请找到该事件的根本原因并解决它
  1. 核实HA备份链接界面状态
    1. 仪表板>小部件>系统> 点击高的可用性
HA1-备份Link Down Web GUI
  1. 使用命令显示高可用性接口 < ha1-backup | ha2-备份 >HA2-备份失败 CLI
    笔记: 一直用SFP来自受支持的列表SFP由 Palo Alto Networks 为HA端口。 不支持SFP尚未针对在帕洛阿尔托网络设备中的使用进行测试和验证。 如果不受支持SFP使用后,很可能会出现卡不上、抖动等问题。 帕洛阿尔托网络TAC如果不受支持,可能会拒绝支持SFP用来。 如果不受支持SFP当前正在使用,将其替换为SFP从支持列表中SFP在继续之前的下方。

支持列表SFP的/收发器
  1. 解决任何hardware/通过尝试已知良好/工作的物理链接问题hardware成分
    1. 重新安装HA两个防火墙中的电缆
    2. 重新安装HA港口SFP在两个防火墙中
    3. 更换HA电缆具有已知良好的工作HA同类型电缆
    4. 更换HA港口SFP与一个已知的好,工作HA港口SFP同类型
  1. 解决任何管理平面或数据平面性能问题(高CPU,高内存,高数据包缓冲区/数据包描述符)
如果管理平面或数据平面太忙,firewall可能无法可靠地接收、处理或发送HA心跳消息HA链接)。 使用以下步骤识别、排除故障并解决管理平面或数据平面利用率高的问题。
  1. 审查监视器>日志点击系统大约在HA发生故障,以确定是否有任何高CPU/ memory / Packet Buffer / Packet Descriptor utilization during the time
  2. 检查以下输出CLI命令:
> 显示系统资源(显示电流MP CPU/内存使用情况)
寻找任何高CPU或某个进程的高内存 - 确定是哪个进程(例如: mgmtsrvr ,用户ID ,代理, logrcvr ,路由,授权等),排查为什么该进程有高CPU/内存,并解决它
 
在下面的示例中,在firewall在安全Policy规则,进而导致 logrcvr 进程在firewall使用 100% 的管理平面CPU. 这导致了其他进程firewall有问题,例如firewallha_agent 无法响应HA心跳在那一刻。 一旦安全性中的日志记录量减少Policy规则,问题消失了,并且HA再次稳定下来
高的CPU在管理平面上的 logrcvr 进程上 - 显示系统资源如下                                                                      
 
>显示正在运行的资源监视器(显示电流DP CPU/Memory/Packet Buffer/Packet Descriptor 用法)
寻找任何高利用率CPU、数据包缓冲区、数据包描述符或内存 - 确定哪个资源具有高利用率并解决它

在下面的示例中,有大量流量(类似于 DDoS)通过firewall当时。 因此,数据平面CPU/packet buffers/packet descriptors 被大量使用,并且firewallHA无法处理心跳firewall接口正确。 一旦违规流量被识别并停止通过firewall,数据平面利用率回到正常水平,并且HA再次稳定下来
高的CPUDataplane 上的数据包缓冲区数据包描述符 - 显示正在运行的资源监视器
  1. 使用以下命令检查日志文件MP/DP最近的日期+时间戳过去的使用值HA失败:
>less mp-log mp-monitor.log
>less dp0-log dp-monitor.log
  1. 使用资源在附加信息下面的部分进一步识别、排除故障和解决高管理平面或数据平面利用率
  1. 核实HA状态健康
  1. 一旦导致的问题HA1备份或者HA2 备份首先要断开的链接已被识别并解决(物理问题,HA链接问题,MP /DP资源问题、系统进程问题等),如果需要,取消挂起以前不健康的单元设备>高可用性>操作命令> 点击使本地设备具有高可用性功能
如何取消暂停 HA
 
  1. 核实HA在两个防火墙中再次显示健康
仪表板> 点击小部件>系统> 点击高可用性
HA1-Backup Healthy Dashboard Web GUI
使用命令全部显示高可用性
HA1-备份健康 CLIHA2-备份健康 CLI


Additional Information


管理平面
示例:如何识别管理平面的高利用率
管理平面与数据平面进程
如何解释“显示系统资源”的输出
资源列表:性能和稳定性

数据平面
如何排除高数据平面利用率的故障
如何解决 DoS 攻击
如何解决高数据包缓冲区和数据包描述符问题
如何对高数据包描述符进行故障排除(片上)
资源列表:性能和稳定性

其他资源
如何对 Palo Alto Networks 防火墙进行故障排除(视频课程)
资源列表:性能问题故障排除
资源列表:高可用性配置和故障排除
资源列表:解决高可用性问题


Actions
  • Print
  • Copy Link

    https://knowledgebase.paloaltonetworks.com/KCSArticleDetail?id=kA14u000000oNqUCAU&lang=zh_CN&refURL=http%3A%2F%2Fknowledgebase.paloaltonetworks.com%2FKCSArticleDetail

Choose Language