AIOps-Warnung - Hohe Verfügbarkeit - " Peer-Verbindungsstatus"HA

AIOps-Warnung - Hohe Verfügbarkeit - " Peer-Verbindungsstatus"HA

26697
Created On 04/28/22 20:18 PM - Last Modified 08/23/23 22:21 PM


Symptom


Warnung von AIOps bezüglich Hochverfügbarkeit - HA Peerverbindungsstatus

Environment


AIOps-Warnung

Cause


Wenn die Ausgabe von >show high-availability all Peer-Informationen als "Verbindungsstatus: down" auf dem Active oder Active-Primary im HA Paar firewall anzeigt, zeigt AIOps for NGFW dem Benutzer eine kritische Warnung

an. Während der häufigste Grund dafürHA, dass Peer nicht erkannt wird, die Links sind, die HA nach unten gehen, kann es andere Gründe geben, wie zum Beispiel:  
• Peer firewall kann zu diesem Zeitpunkt keine Heartbeats verarbeiten / empfangen HA (Beispiel: hoher CPUSpeicher, Ressourcenproblem, Überauslastung / DDoS, Link-Problem usw.)
• firewall Peer kann zu diesem Zeitpunkt nicht auf Heartbeats reagieren/diese senden HA (Beispiel: hoher CPUSpeicher, hohes Speicherproblem, Ressourcenproblem, Überauslastung/DDoS, Verbindungsproblem usw.)
• HA Verbindungsproblem hardware (fehlerhaftes Kabel, fehlerhafter, fehlerhafter SFPPort, Problem mit der Rückwandplatine, elektrisches Problem)
• Latenz oder Paketverlust auf den Verbindungen
• Die geografische Entfernung zwischen den HA 2 Firewalls im HA Paar ist zu lang / weit für die Kabel- / Typspezifikation
• Andere System- /SFP Prozessprobleme, firewall die HA auftreten können


Resolution


  1. Ermitteln des genauen Datums und des Zeitstempels des aufgetretenen Failovers HA / HA Fehlers
  1. Navigieren Sie im Firewall Web GUIzu Überwachen > Systemprotokolle
  2. Navigieren Sie zu dem Datum und dem Zeitstempel, an dem der HA Fehler aufgetreten ist, und ermitteln Sie, ob zu diesem Zeitpunkt andere Systemprotokolle vorhanden sind, die auf ein Problem mit dem firewall Gesamtzustand hinweisen könnten (Schnittstellen, die ausfallen, beendete Prozesse, hohe CPU/ Speicherauslastung, Verbindungs- und Pfadüberwachung usw.).
  3. Wenn andere Ereignisse gefunden werden, die dazu beigetragen haben könnten, dass die Verbindung unterbrochen wurde, suchen Sie die HA Hauptursache dieses Ereignisses und beheben Sie sie.
  1. Stellen Sie sicher, dass beide Firewalls die Anforderungen für HA
Stellen Sie anhand des folgenden Dokuments sicher, dass beide Firewalls genau das gleiche Modell, die gleiche Version, die gleichen Schnittstellen, Lizenzen, PAN-OS VSYS-Funktionen usw. aufweisen.
Voraussetzungen für Aktiv/Passiv HA
Voraussetzungen für Aktiv/Aktiv HA
 
  1. Identifizieren des HA Ursaches für die Ausfall der Peerverbindung
Überprüfen Sie die Ausgabe des folgenden CLI Befehls, um die Ursache für die HA Peerverbindung auf beiden Firewalls zu ermitteln:
>show high-availability all
Group 1: 
 Mode: Active-Active
Local Information:
    Mode: Active-Active
    State: active-primary (last 1 hours)
    Last non-functional state reason: Dataplane down: brdagent exiting
Peer Information:
    Connection status: down
    Connection down reason: HA1 link went down
    Last non-functional state reason: Dataplane down: user triggered

Andere mögliche Gründe für die Verbindungsunterbrechung sind:
  • Heartbeat-Ping-Fehler
  • Nie in der Lage, eine Verbindung zum Peer herzustellen
  • Verbindungsfehler erkannt
  • HA Peer-Agent wird beendet
  • Hello-Protokollfehler
  • Funktionsaustausch mit Peer fehlgeschlagen
  • HA1-Verschlüsselungskonfiguration stimmt nicht überein
  • SSH Tunnel-Reset
 
Tipp: Es ist auch eine gute Idee, den "Grund für den letzten nicht funktionierenden Zustand" zu notieren, da dies Ihnen oft helfen kann, die Ursache des Fehlers zu finden
 
  1. Überprüfen Sie den Status der HA Schnittstellen und beheben Sie Probleme mit der hardware Softwareschnittstelle/-verbindung auf beiden Firewalls.
  1. Klicken Sie im Dashboard > auf Widgets > System > klicken Sie auf Hohe Verfügbarkeit
HA Gesundes Dashboard
 
  1. >Hochverfügbarkeitsschnittstelle < HA1 anzeigen | HA2 | ha3 >
Hochverfügbarkeitsschnittstelle anzeigen ha1
Hochverfügbarkeitsschnittstelle HA3 anzeigen
  1. Überprüfen, ob ein unterstütztes SFP Element verwendet wird
Verwenden Sie SFPimmer 's aus der Liste der von Palo Alto Networks unterstützten SFP's für die HA Ports. Nicht unterstützte SFPGeräte wurden nicht für die Verwendung in Palo Alto Networks-Geräten getestet und validiert. Wenn eine nicht unterstützte SFP Option verwendet wird, ist es wahrscheinlich, dass die Schnittstelle nie angezeigt wird, klappt und andere Probleme auftreten. Palo Alto Networks TAC kann den Support verweigern, wenn ein nicht unterstützter SFP Support verwendet wird. Wenn Sie derzeit eine nicht unterstützte SFPverwenden, ersetzen Sie sie durch eine SFP aus der Liste der unterstützten SFP's unten, bevor Sie fortfahren.

Liste der unterstützten SFP's/Transceiver
https://live.paloaltonetworks.com/t5/operations-documentation/transceiver-history-reference-810-000096-00y-updated-on-03-23/ta-p/227987?attachment-id=10684
https://live.paloaltonetworks.com/t5/operations-documentation/hw-accessory-cross-reference-810-000077-0av-updated-on-03-23/ta-p/63422?attachment-id=10683
So sehen Sie die aktuell installierten SFPs
 
  1. Beheben Sie alle hardwareProbleme mit der /physischen Verknüpfung, indem Sie zweifelsfrei funktionierende/funktionierende hardware Komponenten ausprobieren.
  • Entfernen Sie das Kabel aus beiden Firewalls, und schließen Sie es HA wieder an.
  • Entfernen Sie den Port SFP in beiden Firewalls, und setzen Sie ihn HA wieder ein.
  • Ersetzen Sie das HA Kabel durch ein zweifelsfrei funktionierendes Kabel desselben Typs.HA
  • Ersetzen Sie den HA Anschluss SFP durch einen zweifelsfrei funktionierenden Port SFP desselben Typs.HA
Nachdem Sie jeden der oben genannten Schritte ausgeführt haben, überprüfen Sie, ob das HA Link-Problem weiterhin auftritt
 
  1. Beheben von Leistungsproblemen auf Verwaltungsebene oder Datenebene (hoher CPUSpeicher, hoher Arbeitsspeicher, hohe Paketpuffer/Paketdeskriptoren)
Wenn die Verwaltungsebene oder Datenebene aus irgendeinem Grund zu ausgelastet ist, ist sie möglicherweise nicht in der firewall Lage, Heartbeat-Nachrichten zuverlässig zu empfangen, zu verarbeiten oder zu senden HA . Führen Sie die folgenden Schritte aus, um die hohe Auslastung der Verwaltungsebene oder Datenebene zu identifizieren, Fehler zu beheben und zu beheben.
 
  1. Überprüfen Sie die Überwachung > Systemprotokolle um den Zeitpunkt des Auftretens des HA Fehlers, um festzustellen, ob während dieser Zeit eine hohe CPU Auslastung / Speicher / Paketpuffer / Paketdeskriptor vorhanden war
  2. Überprüfen Sie die Ausgabe der folgenden CLI Befehle:
>show system resources follow - zeigt die aktuelle MP CPU/Memory-Auslastung an
Suchen Sie nach einem hohen oder hohen Speicher in einem bestimmten Prozess - identifizieren Sie, welcher Prozess dies ist (z. B. mgmtsrvr, useridd, ha-agent, logrcvr, routed, authd usw.), beheben Sie, warum dieser Prozess einen hohen CPUCPU /memory-Wert hat, und lösen Sie ihn auf.
 
Im folgenden Beispiel wurde eine übermäßige Protokollierung für die firewall Sicherheitsregeln Policy konfiguriert, was wiederum dazu führte, dass der logrcvr-Prozess auf der firewall 100% der Verwaltungsebene CPUverwendete. Dies führte dazu, dass andere Prozesse Probleme wie firewall die ha_agent hatten, die firewall in diesem Moment nicht auf HA Herzschläge reagieren konnten. Sobald die Menge der Protokollierung in den Sicherheitsregeln Policy reduziert wurde, verschwand das Problem und HA wurde wieder stabil.
Hoch CPU auf logrcvr-Prozess auf Managementebene - Systemressourcen anzeigen folgen
 
>show running resource-monitor - zeigt die aktuelle DP CPU/Memory/Packet Buffer/Packet Descriptor-Nutzung an Suchen Sie nach einer hohen Auslastung von CPU, Paketpuffern, Paketdeskriptoren oder Speicher -

identifizieren Sie, welche Ressource eine hohe Auslastung aufweist, und lösen Sie sie auf.
 
Im folgenden Beispiel gab es zu diesem Zeitpunkt ein großes Verkehrsaufkommen (ähnlich einem DDoS).firewall Infolgedessen wurden die Datenebenen CPU/Paketpuffer/Paketdeskriptoren stark genutzt, und die firewall HA Heartbeats konnten von den firewall Schnittstellen nicht ordnungsgemäß verarbeitet werden. Sobald die störenden Verkehrsströme identifiziert und gestoppt wurden, sank firewalldie Auslastung der Datenebene wieder auf ein normales Niveau und HA wurde wieder stabil.
Hohe CPU Paketpuffer Paketdeskriptoren auf der Datenebene - zeigen laufenden Ressourcenmonitor an
Sie können die folgenden Befehle verwenden, um diese Protokolldateien auf MP/DP Verwendungswerte in der Vergangenheit zum Datum + Zeitstempel des letzten HA Fehlers zu überprüfen:>less mp-log
mp-monitor.log
>less dp0-log dp-monitor.log
  1. Verwenden Sie die Ressourcen im Abschnitt Zusätzliche Informationen weiter unten, um die hohe Auslastung der Verwaltungsebene oder Datenebene weiter zu identifizieren, Fehler zu beheben und zu beheben.
 
  1. Überprüfen Sie, ob HA der Status fehlerfrei ist
  1. Sobald das Problem, das dazu geführt hatHA, dass der Peerverbindungsstatus überhaupt nicht verfügbar war, identifiziert und behoben wurde (HAVerbindungsproblem, /DP Ressourcenproblem, MPSystemprozessproblem usw.), heben Sie bei Bedarf die zuvor fehlerhafte Einheit von Device > High Availability > Operational Commands auf, > klicken Sie auf Lokales Gerät für hohe Verfügbarkeit funktionsfähig machen
So heben Sie die Suspendierung auf HA
  1. Verify zeigt in beiden Firewalls HA wieder fehlerfrei an
Klicken Sie im Dashboard > auf Widgets > System > klicken Sie auf Hohe Verfügbarkeit
Dashboard-Widget - - Aktiv-Primär HA
Dashboard-Widget - - Aktiv-Sekundär HA
 
>Hochverfügbarkeit anzeigen
HA gesund CLI
 
 
 


Additional Information


Beispiel für die Verwaltungsebene
: So identifizieren Sie eine hohe Auslastung der Verwaltungsebene
Verwaltungsebene im Vergleich zu Datenebenenprozessen
So interpretieren Sie die Ausgabe von "Systemressourcen anzeigen"
Ressourcenliste: Leistungs

- und Stabilitätsdatenebene
Fehlerbehebung bei hoher Datenebenenauslastung
Fehlerbehebung bei DoS-Angriffen
Problembehandlung bei Problemen mit hohem Paketpuffer und Paketdeskriptor
Fehlerbehebung bei hohen Paketdeskriptoren (auf dem Chip
)Ressourcenliste: Leistung und Stabilität Weitere Ressourcen
Fehlerbehebung bei Palo Alto Networks Firewalls (Videokurs)
Ressourcenliste: Fehlerbehebung bei Leistungsproblemen Ressourcenliste: Konfiguration und Problembehandlung für hohe Verfügbarkeit Ressourcenliste: Problembehandlung bei Problemen mit hoher Verfügbarkeit Ressourcenliste: Problembehandlung bei
Problemen mit hoher Verfügbarkeit




Actions
  • Print
  • Copy Link

    https://knowledgebase.paloaltonetworks.com/KCSArticleDetail?id=kA14u000000oNlUCAU&lang=de&refURL=http%3A%2F%2Fknowledgebase.paloaltonetworks.com%2FKCSArticleDetail

Choose Language