Alerte AIOps - Haute disponibilité - «HA État de la connexion homologue »

84047

Created On 04/28/22 20:18 PM - Last Modified 08/23/23 22:21 PM

Symptom

Alerte d’AIOps concernant la haute disponibilité - HA État de la connexion homologue

Environment

Alerte AIOps

Cause

Si la sortie de >show high-availability all affiche Peer Information comme 'État de la connexion: down' sur Actif ou Actif-Principal firewall dans la paire, AIOps for NGFW affichera à l'utilisateur une alerte critique

Bien que la raison la plus courante pour HA laquelle l'homologue n'est pas détecté est la HA panne des HA liens, il peut y avoir d'autres raisons telles que:
• Homologue firewall incapable de traiter / recevoir HA des battements cardiaques à ce moment-là (exemple: mémoire élevée, élevéeCPU, problème de ressources, surutilisation / DDoS, problème de liaison, etc.)
• L’homologue firewall n’est pas en mesure de répondre/d’envoyer HA des pulsations à ce moment-là (exemple : mémoire élevée, mémoire CPUélevée, problème de ressources, surutilisation/DDoS, problème de lien, etc.)
• HA problème de liaison hardware (câble défectueux, port défectueuxSFP, fond de panier, firewall problème électrique)
• Toute latence ou perte de paquets sur les liens
• La distance géographique entre les HA 2 pare-feu de la paire est trop longue/éloignée pour la HA spécification
du HA câble/SFPtype• Autres problèmes de système / processus pouvant survenir

Resolution

Identifier la date et l’horodatage exacts du HA basculement / HA échec

Sur le Firewall Web GUI, accédez à Surveiller > journaux système
Accédez à la date et à l’horodatage de l’échec et identifiez s’il existe d’autres journaux système à ce moment-là qui pourraient indiquer un problème avec l’intégrité firewall globale (interfaces en panne, processus en sortie, utilisation élevée CPUde HA la mémoire, surveillance des liens et des chemins en panne, etc.)
Si d'autres événements sont détectés qui auraient pu contribuer à l'arrêt de la connexion, recherchez la cause première de cet événement et résolvez-la HA .

Vérifiez que les deux pare-feu répondent aux exigences de HA

À l’aide du document ci-dessous, vérifiez que les deux pare-feu ont exactement le même modèle, version, interfaces, licences, capacités vsys, PAN-OS etc.
Conditions préalables HA
pour Actif/Passif Conditions préalables pour Actif/Actif HA

Identifier la HA raison de la connexion avec les pairs

Examinez la sortie de la commande ci-dessous pour identifier la cause de la HA connexion homologue sur les deux pare-feu CLI :

>show high-availability all
Group 1: 
 Mode: Active-Active
Local Information:
    Mode: Active-Active
    State: active-primary (last 1 hours)
    Last non-functional state reason: Dataplane down: brdagent exiting
Peer Information:
    Connection status: down
    Connection down reason: HA1 link went down
    Last non-functional state reason: Dataplane down: user triggered

D’autres raisons possibles de connexion en panne incluent:

Échec du ping pulsatif
Impossible de se connecter à l’homologue
Erreur de connexion détectée
Agent homologue HA sortant
Échec du protocole Hello
Échec de l’échange de capacités avec un homologue
Incompatibilité de configuration du chiffrement HA1
SSH Réinitialisation du tunnel

Conseil: C'est également une bonne idée de prendre note de la « dernière raison d'état non fonctionnel », car elle peut souvent vous aider à trouver la cause première de l'échec.

Vérifiez l’état des interfaces et résolvez tout hardware problème d’interface/liaison logicielle HA sur les deux pare-feu

Tableau de bord > cliquez sur Widgets > système > cliquez sur Haute disponibilité

>Afficher l’interface haute disponibilité < HA1 | HA2 | ha3 >

afficher l’interface haute disponibilité ha1

Afficher l’interface haute disponibilité HA3

Vérifier qu’un pris en charge SFP est utilisé

SFPUtilisez toujours les de de la liste des et pris en charge SFPpar Palo Alto Networks pour les HA ports. Les non pris en charge SFPn'ont pas été testés et validés pour une utilisation dans les périphériques Palo Alto Networks. Si un élément non pris en charge SFP est utilisé, il est probable que l’interface ne s’affiche jamais, que le rabat et que d’autres problèmes se produisent. Palo Alto Networks TAC peut refuser l’assistance si un support non pris en charge SFP est utilisé. Si vous utilisez actuellement un , remplacez-le par un SFP SFPdans la liste des et pris en charge SFPci-dessous avant de continuer.

Liste des émetteurs-récepteurs
https://live.paloaltonetworks.com/t5/operations-documentation/transceiver-history-reference-810-000096-00y-updated-on-03-23/ta-p/227987?attachment-id=10684
https://live.paloaltonetworks.com/t5/operations-documentation/hw-accessory-cross-reference-810-000077-0av-updated-on-03-23/ta-p/63422?attachment-id=10683
pris en charge SFPComment voir les SFP actuellement installés

Résoudre les hardwareproblèmes de liaison /physical en essayant des composants fonctionnels hardware , dont le fonctionnement a été vérifié

Reconnectez le câble dans les HA deux pare-feu.
Réinstallez le port SFP dans les HA deux pare-feu
Remplacez le câble par un câble fonctionnel du même type, HA dont le HA fonctionnement a été vérifié.
Remplacez le port par un port SFP SFP fonctionnel du même type, HA dont le HA fonctionnement a été vérifié.

Après avoir effectué chacune des étapes ci-dessus, vérifiez si le problème de HA liaison persiste

Résoudre les problèmes de performances du plan de gestion ou du plan de données (mémoire élevée, mémoire CPUélevée, tampons de paquets/descripteurs de paquets élevés)

Si le plan de gestion ou le plan de données est trop occupé pour une raison quelconque, il se peut que le firewall ne soit pas en mesure de recevoir, traiter ou envoyer HA des messages de pulsation de manière fiable. Suivez les étapes ci-dessous pour identifier, dépanner et résoudre l’utilisation élevée du plan de gestion ou du plan de données

Examinez les journaux système de surveillance > au moment de la HA défaillance pour identifier s’il y a eu une utilisation élevée CPU / mémoire / tampon de paquets / descripteur de paquets pendant cette période
Vérifiez la sortie des commandes suivantes CLI :

>afficher les ressources système suivantes - affiche l’utilisation actuelle MP CPUde /Memory

Recherchez une mémoire élevée ou élevée sur un certain processus - identifiez le processus qui est (Ex: mgmtsrvr, useridd, ha-agent, logrcvr, routed, authd, etc.), dépannez pourquoi ce processus a une /mémoire élevée CPUCPU et résolvez-le

Dans l’exemple ci-dessous, une journalisation excessive a été configurée sur les firewall règles de sécuritéPolicy, ce qui a entraîné l’utilisation de 100 % du plan CPUde gestion par le processus logrcvr sur le firewall . Cela a entraîné d’autres processus dans le pour avoir des problèmes tels que le firewall firewall ha_agent ne pas être en mesure de répondre aux HA battements de cœur à ce moment-là. Une fois que la quantité de journalisation a été réduite dans les règles de sécurité Policy , le problème a disparu et HA est redevenu stable

Haut CPU sur le processus logrcvr sur le plan de gestion - afficher les ressources système suivre

>show running resource-monitor - affiche l’utilisation actuelle DP CPUde /Memory/Packet Buffer/Packet Descriptor Rechercher toute utilisation

élevée de CPU, Packet Buffers, Packet Descriptors ou Memory - identifier la ressource à forte utilisation et la résoudre

Dans l’exemple ci-dessous, il y avait un grand volume de trafic (similaire à un DDoS) passant par le firewall à ce moment-là. En conséquence, les tampons de plan CPUde données / tampons de paquets / descripteurs de paquets sont devenus fortement utilisés et les pulsations ne pouvaient pas être traitées correctement par les firewall firewall HA interfaces. Une fois que les flux de trafic incriminés ont été identifiés et empêchés de passer par le , l’utilisation firewalldu plan de données est redescendue à des niveaux normaux et HA est redevenue stable.

High CPU Packet Buffers Packet Descriptors on Dataplane - show running resource-monitor

Vous pouvez utiliser les commandes ci-dessous pour rechercher dans ces fichiers MPjournaux les valeurs /DP d’utilisation dans le passé à la date + horodatage de l’échec récent HA :>less mp-log
mp-monitor.log>less dp0-log dp-monitor.log

Utilisez les ressources de la section Informations supplémentaires ci-dessous pour identifier, dépanner et résoudre plus en détail l’utilisation élevée du plan de gestion ou du plan de données

Vérifier que HA l’état est sain

Une fois que le problème qui a causé HA l’arrêt de l’état de la connexion homologue a été identifié et résolu (HAproblème de lien, /DP problème de ressources, problème de processus système, etc.), si nécessaire, MPannulez la suspension de l’unité précédemment défectueuse de Device > High Availability > Operational Commands > cliquez sur Rendre l’appareil local fonctionnel pour une haute disponibilité

La vérification HA affiche à nouveau l’intégrité dans les deux pare-feu

Tableau de bord > cliquez sur Widgets > système > cliquez sur Haute disponibilité

Widget Tableau de bord - - Actif-Primaire HA

Widget Tableau de bord - - Actif-Secondaire HA

>afficher la haute disponibilité tout

Additional Information

Exemple de plan de gestion : Comment identifier le plan de gestion Utilisation élevée Plan de gestion et processus de plan de données Comment interpréter la sortie de « Afficher les ressources système"Liste des ressources
: Plan

de données de performances et de stabilité Comment faire pour résoudre les problèmes d’utilisation élevée du

plan
de données
Comment résoudre les problèmes d’attaque DoS Comment
résoudre les problèmes

de tampon de paquets élevé et de descripteur de paquets Comment faire pour résoudre les problèmes de descripteurs de paquets élevés (sur puce
)Liste de ressources : performances et stabilité Autres
ressources Comment faire pour dépanner les pare-feu des réseaux Palo Alto (cours vidéo)
Liste de ressources : Résolution des problèmes de performances Liste de ressources : Configuration haute disponibilité et dépannage Liste
des

ressources : Résolution des problèmes de haute disponibilité

Alerte AIOps - Haute disponibilité - «HA État de la connexion homologue »

Symptom

Environment

Cause

Resolution

Additional Information

Other users also viewed: