Retards de expédition de journaux ou journaux manquants en raison de la latence élevée entre les collecteurs de journaux dans un groupe de collecteurs

Retards de expédition de journaux ou journaux manquants en raison de la latence élevée entre les collecteurs de journaux dans un groupe de collecteurs

76113
Created On 12/28/18 08:30 AM - Last Modified 03/26/21 17:29 PM


Symptom


A La capacité de Collector Group à manipuler les journaux peut souffrir considérablement lorsque la latence entre les collecteurs de journaux dans le groupe collecteur est supérieure à 10 ms et/ou lorsque le taux d’enregistrement est élevé. Dans de telles conditions, une lenteur ou un retard peut être observé lors de l’adage des journaux. Dans certains cas, les journaux peuvent même se perdre.

Environment


Environnements où ce problème est plus susceptible de se produire :
  • La latence est élevée entre les LC – une latence supérieure à 10ms pourrait déclencher le problème.
  • Taux d’enregistrement élevé – FWs haut de gamme ( PA- 7k, PA-5200 ), en avançonnant des journaux vers LC ou de nombreux pare-feu en avança des journaux
  • La redondance du journal est définie.


Cause


Dans un système fonctionnel, un firewall forwards se connecte à un seul collecteur de journaux dans un groupe collecteur en fonction de la configuration de sa liste de préférences de transmettre le journal. Le collecteur de journaux qui reçoit les journaux distribue également ces journaux à d’autres collecteurs de journaux du groupe pour le stockage sur disque. Le collecteur de journaux de réception tamponne les journaux jusqu’à ce qu’il reçoive un accusé de réception du collecteur de journaux pairs au cas où une défaillance de communication exige que les journaux soient envoyés à nouveau. Si ce tampon se remplit, il ne peut plus recevoir de journaux de la firewall . 

Dans un système soumis à un stress (par exemple, à un taux d’enregistrement élevé et à une latence élevée entre les collecteurs de journaux), les paquets de reconnaissance peuvent être retardés. Cela provoque à son tour tampons sur le collecteur de journaux de réception pour atteindre la capacité maximale. Bien que les tampons soient à capacité maximale, le collecteur de journaux n’acceptera pas les journaux supplémentaires provenant des pare-feu. Cela introduit des retards dans le stockage des journaux sur disque et dans les cas extrêmes une perte de journaux. Par exemple, dans le cas d’un PA-5200 ou PA- d’un 7K qui peut avoir des taux d’exploitation forestière très élevés, firewall le tampon de journal du journal pourrait se retourner, ce qui entraînerait une perte de journaux.

Détection d’un système soumis au stress

  1. Exécuter CLI debug log-collector log-collection-stats afficher les journaux entrants

Sur le collecteur de journaux qui reçoit des journaux de la firewall , émettez la commande suivante :

> Debug log-collecteur log-collection-stats montrent entrant-logs

vérifiez la sortie pour le champ surligné:
blk statistiques d’expédition par destination LC :
007307001057 (Succès:3156, Fails:156543)
007307001044 (Succès:166874, Fails:0)


Lorsque le problème existe, le nombre échoue augmente constamment pour le collecteur de journaux à distance.
 
  1. Exécutez le netstat CLI 's pour voir si le canal de communication est encombré

Sur le collecteur de journaux, exécutez les deux commandes netstat suivantes :

> montrer netstat numérique oui programme oui | match déconnecté

Si le recv-q (la deuxième colonne) montre un nombre énorme, le système a très probablement couru dans ce problème.

tcp 6100410 0 127.0.0.1:41742 127.0.0.1:pan-mgmtsrv ESTABLISHED

 

> montrer netstat numérique oui programme oui | match <ip address of the other LC >

Si le recv-q (la deuxième colonne) et /ou send-q (la troisième colonne) pour la connexion montre un grand nombre, le système a très probablement couru dans le problème.

tcp 4306978 162176 ::ffff:10.:p an-mgmt-interlc ::ffff:172.25.0.14:50471 ESTABLISHED



Resolution


solution

Assurer une latence d’au moins 10 m entre les collecteurs de grumes.

Contournement

  1. Désactiver la redondance de journal pour CG
La redondance double le volume de trafic entre les LC. La réduction du trafic peut aider à alléger la pression.
  1. Activer la compression LC inter-données

La compression des données pour inter-lc est par défaut pour 8,1. Dans 8.0, faire ce qui suit pour activer la compresse de données pour la communication inter-lc sur tous les LCs
du groupe: débogage log-collector inter-log-collector
data-compression logiciel redémarrer le processus de redémarrage du logiciel logé

Il n’y a pas d’impact opérationnel, mais peut entraîner une augmentation minimale de CPU l’utilisation de logd.

  1. Divisez un seul groupe de collectionneurs en plusieurs groupes de collectionneurs

Il réduit ou, dans certains cas, élimine complètement la communication collectrice inter-journaux atténue donc la probabilité de ce problème. Il n’a pas d’impact opérationnel tant que tous les collecteurs de journaux sont opérationnels. Si l’un des collecteurs de journaux descend brièvement, les PA- pare-feu (autres que 7k PA-5200 et ) redédukent les journaux et les journaux ne seront pas perdus. 
Remarque : Cette solution de contournement aura un impact sur l’adage PA- des journaux à partir de PA- 7 K et 5 200. En raison de la capacité tampon et du taux d’enregistrement extrêmement élevé de ces FWs, les tampons peuvent être pleins et ils peuvent ne pas être en mesure de re-transmettre les journaux au collecteur de journaux une fois qu’il revient.


Additional Information


 

 


Actions
  • Print
  • Copy Link

    https://knowledgebase.paloaltonetworks.com/KCSArticleDetail?id=kA10g000000CmUnCAK&lang=fr&refURL=http%3A%2F%2Fknowledgebase.paloaltonetworks.com%2FKCSArticleDetail

Choose Language