Retrasos de reenvío de registros o registros que faltan debido a una latencia alta entre los recopiladores de registros de un grupo de recopiladores

Retrasos de reenvío de registros o registros que faltan debido a una latencia alta entre los recopiladores de registros de un grupo de recopiladores

76117
Created On 12/28/18 08:30 AM - Last Modified 03/26/21 17:28 PM


Symptom


A La capacidad de Collector Group para controlar los registros puede sufrir mucho cuando la latencia entre los recopiladores de registros en el grupo de recopiladores es mayor que 10 ms y/o cuando la tasa de registro es alta. En tales condiciones, se puede ver una lentitud o retraso al reenviar registros. En algunos casos, los registros pueden incluso perderse.

Environment


Entornos donde este problema es más probable que ocurra:
  • La latencia es alta entre los LCs – una latencia mayor que 10ms podría desencadenar el problema.
  • Alta tasa de registro – FWs de gama alta ( PA- 7k, PA-5200 ), reenvío de registros a LC o muchos firewalls reenviando registros
  • Se establece la redundancia de registros.


Cause


En un sistema en funcionamiento, un firewall reenvía registros a un único recopilador de registros en un grupo de recopiladores en función de la configuración de su lista de preferencias de reenvío de registros. El recopilador de registros que recibe los registros distribuye estos registros por igual a otros recopiladores de registros del grupo para almacenarlos en el disco. El recopilador de registros receptor almacena en búfer los registros hasta que recibe una confirmación de los recopiladores de registros del mismo nivel en caso de que un error de comunicación requiera que los registros se envíen otra vez. Si este búfer se llena, ya no puede recibir registros del firewall archivo . 

En un sistema bajo tensión (por ejemplo, bajo alta tasa de registro y alta latencia entre los colectores de registros), los paquetes de confirmación pueden retrasarse. Esto a su vez hace que los búferes del recopilador de registros receptor alcancen la capacidad máxima. Aunque los búferes tienen una capacidad máxima, el recopilador de registros no aceptará registros adicionales de firewalls. Esto introduce retrasos en el almacenamiento de registros en el disco y, en casos extremos, una pérdida de registros. Por ejemplo, en el caso de un PA-5200 7K o un PA- 7K que puede tener velocidades de registro muy altas, el firewall 's log buffer podría rodar resultando en una pérdida de registros.

Detección de un sistema bajo estrés

  1. Ejecute CLI log-collector de depuración log-collection-stats que muestren los registros entrantes

En el recopilador de registros que está recibiendo registros del firewall comando , publique el siguiente comando:

> debug log-Collector log-colección-estadísticas Mostrar registros entrantes

marque la salida para el campo resaltado: estadísticas de
envío blk por LC destino:
007307001057(Successes:3156, Fails:156543)
007307001044(Successes:166874, Fails:0)


Cuando el problema existe, el recuento de errores aumenta constantemente para el recopilador de registros remoto.
 
  1. Ejecute el netstat CLI 's para ver si el canal de comunicación está congestionado

En el recopilador de registros, ejecute los dos comandos netstat siguientes:

> mostrar netstat numeric sí programa sí | partido con registro

Si el recv-q (la segunda columna) muestra un número enorme, lo más probable es que el sistema se haya torcador con este problema.

tcp 6100410 0 127.0.0.1:41742 127.0.0.1:pan-mgmtsrv ESTABLISHED

 

> mostrar netstat numeric sí programa sí | partido <ip address of the other LC >

Si el recv-q (la segunda columna) y/o send-q (la tercera columna) para la conexión muestra un gran número, lo más probable es que el sistema se haya quedado con el problema.

tcp 4306978 162176 ::ffff:10.:p an-mgmt-interlc ::ffff:172.25.0.14:50471 ESTABLISHED



Resolution


Solución

Garantice al menos una latencia de 10 ms entre los recopiladores de registros.

Solución

  1. Desactivar la redundancia de registros para CG
La redundancia duplica el volumen de tráfico entre los LCs. Reducir el tráfico puede ayudar a aliviar la presión.
  1. Activar la compresión entre LC datos

La compresión de datos para inter-lc es predeterminada para 8.1. En 8.0, haga lo siguiente para activar la compresión de datos para la comunicación entre lc en todos los LCs del grupo:
debug log-collector inter-log-collector data-compression
process logd

No hay impacto operativo, pero puede resultar en un aumento mínimo del CPU uso de logd.

  1. Dividir un único grupo de coleccionistas en varios grupos de recopiladores

Reduce o, en algunos casos, elimina por completo la comunicación del recopilador entre registros, lo que mitiga la probabilidad de este problema. No tiene ningún impacto operativo siempre y cuando todos los recopiladores de registros estén en funcionamiento. Si uno de los recopiladores de registros cae brevemente, los firewalls (distintos de PA- 7k y PA-5200 ) volverán a reenviar los registros y los registros no se perderán. 
Nota: Esta solución alternativa afectará al reenvío de registros de PA- 7K y PA- 5200s. Debido a la capacidad del buffer y a la velocidad de registro extremadamente alta de estos FWs, los buffers pueden llegar llenos y es posible que no puedan reenviar los registros al recopilador de registros una vez que vuelva a subir.


Additional Information


 

 


Actions
  • Print
  • Copy Link

    https://knowledgebase.paloaltonetworks.com/KCSArticleDetail?id=kA10g000000CmUnCAK&lang=es&refURL=http%3A%2F%2Fknowledgebase.paloaltonetworks.com%2FKCSArticleDetail

Choose Language