Alerte AIOps - Haute disponibilité - « HA Sauvegarde »

Alerte AIOps - Haute disponibilité - « HA Sauvegarde »

15202
Created On 05/04/22 16:19 PM - Last Modified 08/23/23 22:13 PM


Symptom


HA1-Backup Link est à l’état down HA2-Backup Link est en état
down


Environment


PAN-OS

Cause


Si la sortie de >show high-availability all affiche HA1 Backup Control Link ou HA2 Backup Data Link comme 'État de la liaison: down' sur l'actif ou actif-primaire firewall de la paire , AIOps for NGFW affichera à l'utilisateur une alerte d'avertissement

Bien que la raison la plus courante de HA la panne des liens soit la HA panne du lien physique lui-même, il peut y avoir d’autres raisons telles que: • Ne firewall pas être en mesure de traiter / recevoir HA des battements de cœur sur ce lien à ce moment-là (exemple:
mémoire élevée, élevéeCPU, problème de ressources, surutilisation / DDoS, problème de lien, etc.)
• Soit firewall incapable de répondre à/envoyer HA des battements de cœur sur ce lien à ce moment-là (exemple: mémoire élevée, élevée CPU, problème de ressources, surutilisation / DDoS, problème de lien, etc.)
• HA problème de liaison hardware (câble défectueux, défectueux, port défectueuxSFP, problème de fond de panier, firewall problème électrique)
• La distance géographique entre les 2 pare-feu de la paire est trop longue/trop éloignée pour la HA spécification
du HA câble/SFPtype• Autres problèmes de système / processus pouvant survenir


Resolution


  1. Identifier la date et l’heure exactes de l’arrêt du lien de sauvegarde HA1 ou du lien de sauvegarde HA2
    1. Firewall GUI: Surveillez > journaux cliquez sur Système
    2. Filtrer en fonction de la date et de l’heure de l’arrêt du lien HA1 Backup ou HA2 Backup
    3. Examinez l’heure du problème de liaison de sauvegarde pour voir si un autre problème d’interface, de processus, de ressource ou de système s’est produit à peu près à ce moment-là firewall et qui pourrait indiquer un problème d’intégrité HA globale avec le firewall ou tout autre événement connexe
    4. Si d'autres événements sont détectés qui auraient pu contribuer à l'arrêt du ou des liens HA1-Backup ou HA2-Backup, recherchez la cause première de cet événement et résolvez-la.
  1. Vérifier l’état de HA l’interface des liens de sauvegarde
    1. Tableau de bord > widgets > système > cliquez sur Haute disponibilité
HA1-Lien de sauvegarde vers le bas Web GUI
  1. Utilisez la commande show high-availability interface < ha1-backup | ha2-backup >Échec de la sauvegarde HA2 CLI
    Remarque : utilisez SFPtoujours les ' de la liste des ' pris en charge SFPpar Palo Alto Networks pour les HA ports. Les non pris en charge SFPn'ont pas été testés et validés pour une utilisation dans les périphériques Palo Alto Networks. Si un élément non pris en charge SFP est utilisé, il est probable que l’interface ne s’affiche jamais, que le rabat et que d’autres problèmes se produisent. Palo Alto Networks TAC peut refuser l’assistance si un support non pris en charge SFP est utilisé. Si un fichier non pris en charge est actuellement utilisé, remplacez-le par un SFP dans la liste des et pris en charge SFP SFPci-dessous avant de continuer.

Liste des émetteurs-récepteurs pris en charge SFP
  1. Résoudre les hardwareproblèmes de liaison /physical en essayant des composants fonctionnels hardware , dont le fonctionnement a été vérifié
    1. Reconnectez le câble dans les HA deux pare-feu.
    2. Réinstallez le port SFP dans les HA deux pare-feu
    3. Remplacez le câble par un câble fonctionnel du même type, HA dont le HA fonctionnement a été vérifié.
    4. Remplacez le port par un port SFP SFP fonctionnel du même type, HA dont le HA fonctionnement a été vérifié.
  1. Résoudre les problèmes de performances du plan de gestion ou du plan de données (mémoire élevée, mémoire CPUélevée, tampons de paquets/descripteurs de paquets élevés)
Si le plan de gestion ou le plan de données est trop chargé, il se peut que le ne soit pas en mesure de recevoir, traiter ou envoyer HA de manière fiable des messages de pulsation sur le firewall HA(s) lien(s). Suivez les étapes ci-dessous pour identifier, dépanner et résoudre l’utilisation élevée du plan de gestion ou du plan de données.
 
  1. Examinez le bouton Surveiller > consigner le système au moment de l’échec HA pour identifier s’il y a eu une utilisation élevée CPU / mémoire / tampon de paquets / descripteur de paquets pendant cette période
  2. Vérifiez la sortie des commandes suivantes CLI :
> afficher les ressources système suivantes (indique l’utilisation actuelle MP CPUde /Memory)
Recherchez une mémoire élevée ou élevée sur un certain processus - identifiez le processus qui est (Ex: mgmtsrvr, useridd, ha-agent, logrcvr, routed, authd, etc.), dépannez pourquoi ce processus a une /mémoire élevée CPUCPU et résolvez-le
 
Dans l’exemple ci-dessous, une journalisation excessive a été configurée sur les firewall règles de sécuritéPolicy, ce qui a entraîné l’utilisation de 100 % du plan CPUde gestion par le processus logrcvr sur le firewall . Cela a entraîné d’autres processus dans le pour avoir des problèmes tels que le firewall firewall ha_agent ne pas être en mesure de répondre aux HA battements de cœur à ce moment-là. Une fois que la quantité de journalisation a été réduite dans les règles de sécurité Policy , le problème a disparu et HA est redevenu stable
Haut CPU sur le processus logrcvr sur le plan de gestion - afficher les ressources système suivre                                                                      
 
> afficher resource-monitor en cours d’exécution (affiche l’utilisation actuelle DP CPUde /Memory/Packet Buffer/Packet Descriptor)
Recherchez toute utilisation élevée de , Tampons de paquets, descripteurs de paquets ou mémoire - identifiez quelle ressource a une utilisation élevée et résolvez-la Dans l’exemple ci-dessous

, il y avait un grand volume de CPUtrafic (similaire à un DDoS) passant par le firewall à ce moment-là. En conséquence, les tampons de plan CPUde données / tampons de paquets / descripteurs de paquets sont devenus fortement utilisés et les pulsations ne pouvaient pas être traitées correctement par les firewall firewall HA interfaces. Une fois que les flux de trafic incriminés ont été identifiés et empêchés de passer par le , l’utilisation firewalldu plan de données est redescendue à des niveaux normaux et HA est redevenue stable.
High CPU Packet Buffers Packet Descriptors on Dataplane - show running resource-monitor                                           
  1. Utilisez les commandes ci-dessous pour vérifier les fichiers journaux pour MPles valeurs /DP d’utilisation dans le passé à la date + horodatage de l’échec récent HA :
>sans mp-log mp-monitor.log
>moins dp0-log dp-monitor.log
  1. Utilisez les ressources de la section Informations supplémentaires ci-dessous pour identifier, dépanner et résoudre plus en détail l’utilisation élevée du plan de gestion ou du plan de données
  1. Vérifier que HA l’état est sain
  1. Une fois que le problème qui a provoqué l’arrêt de la liaison de sauvegarde HA1 ou de sauvegarde HA2 a été identifié et résolu (problème physique, HA MPproblème de lien /DP problème de ressources, problème de processus système, etc.), si nécessaire, annulez la suspension de l’unité précédemment défectueuse des commandes de périphérique > haute disponibilité > opérationnelles > cliquez sur Rendre le périphérique local fonctionnel pour une haute disponibilité
Comment annuler l’interruption HA
 
  1. La vérification HA affiche à nouveau l’intégrité dans les deux pare-feu
Tableau de bord > cliquez sur Widgets > système > cliquez sur Haute disponibilité
HA1-Backup Tableau de bord sain Web GUI
Utiliser la commande show high-availability all
HA1-Backup sain CLIHA2-Backup sain CLI


Additional Information


Exemple de plan de gestion : Comment identifier le plan de gestion Utilisation élevée Plan de gestion et processus de plan de données Comment interpréter la sortie de « Afficher les ressources système »
Liste de ressources : Plan

de données de performances et de stabilité Comment faire pour résoudre les problèmes d’utilisation élevée du plan de données
Comment résoudre les problèmes d’attaque DoS Comment résoudre
les problèmes de tampon de paquets élevé et de descripteur
de paquets Comment faire pour résoudre les problèmes de descripteurs de paquets élevés (sur puce)






Liste de ressources : Performances et stabilité Autres ressources
Comment faire pour résoudre les problèmes de pare-feu Palo Alto Networks (cours vidéo)
Liste de ressources : Résolution des problèmes de performances Liste de ressources : Configuration haute disponibilité et dépannage Liste
des ressources : Résolution des problèmes de haute disponibilité


Actions
  • Print
  • Copy Link

    https://knowledgebase.paloaltonetworks.com/KCSArticleDetail?id=kA14u000000oNqUCAU&lang=fr&refURL=http%3A%2F%2Fknowledgebase.paloaltonetworks.com%2FKCSArticleDetail

Choose Language