Retrasos de reenvío de registros o registros que faltan debido a una latencia alta entre los recopiladores de registros de un grupo de recopiladores
Symptom
A La capacidad de Collector Group para controlar los registros puede sufrir mucho cuando la latencia entre los recopiladores de registros en el grupo de recopiladores es mayor que 10 ms y/o cuando la tasa de registro es alta. En tales condiciones, se puede ver una lentitud o retraso al reenviar registros. En algunos casos, los registros pueden incluso perderse.
Environment
Entornos donde este problema es más probable que ocurra:
- La latencia es alta entre los LCs – una latencia mayor que 10ms podría desencadenar el problema.
- Alta tasa de registro – FWs de gama alta ( PA- 7k, PA-5200 ), reenvío de registros a LC o muchos firewalls reenviando registros
- Se establece la redundancia de registros.
Cause
En un sistema en funcionamiento, un firewall reenvía registros a un único recopilador de registros en un grupo de recopiladores en función de la configuración de su lista de preferencias de reenvío de registros. El recopilador de registros que recibe los registros distribuye estos registros por igual a otros recopiladores de registros del grupo para almacenarlos en el disco. El recopilador de registros receptor almacena en búfer los registros hasta que recibe una confirmación de los recopiladores de registros del mismo nivel en caso de que un error de comunicación requiera que los registros se envíen otra vez. Si este búfer se llena, ya no puede recibir registros del firewall archivo .
En un sistema bajo tensión (por ejemplo, bajo alta tasa de registro y alta latencia entre los colectores de registros), los paquetes de confirmación pueden retrasarse. Esto a su vez hace que los búferes del recopilador de registros receptor alcancen la capacidad máxima. Aunque los búferes tienen una capacidad máxima, el recopilador de registros no aceptará registros adicionales de firewalls. Esto introduce retrasos en el almacenamiento de registros en el disco y, en casos extremos, una pérdida de registros. Por ejemplo, en el caso de un PA-5200 7K o un PA- 7K que puede tener velocidades de registro muy altas, el firewall 's log buffer podría rodar resultando en una pérdida de registros.
Detección de un sistema bajo estrés
Ejecute CLI log-collector de depuración log-collection-stats que muestren los registros entrantes
> debug log-Collector log-colección-estadísticas Mostrar registros entrantes
envío blk por LC destino:
007307001057(Successes:3156, Fails:156543)
007307001044(Successes:166874, Fails:0)
Cuando el problema existe, el recuento de errores aumenta constantemente para el recopilador de registros remoto.
Ejecute el netstat CLI 's para ver si el canal de comunicación está congestionado
> mostrar netstat numeric sí programa sí | partido con registro
tcp 6100410 0 127.0.0.1:41742 127.0.0.1:pan-mgmtsrv ESTABLISHED
> mostrar netstat numeric sí programa sí | partido <ip address of the other LC >
tcp 4306978 162176 ::ffff:10.:p an-mgmt-interlc ::ffff:172.25.0.14:50471 ESTABLISHED
Resolution
Solución
Garantice al menos una latencia de 10 ms entre los recopiladores de registros.Solución
- Desactivar la redundancia de registros para CG
Activar la compresión entre LC datos
La compresión de datos para inter-lc es predeterminada para 8.1. En 8.0, haga lo siguiente para activar la compresión de datos para la comunicación entre lc en todos los LCs del grupo:
debug log-collector inter-log-collector data-compression
process logd
No hay impacto operativo, pero puede resultar en un aumento mínimo del CPU uso de logd.
Dividir un único grupo de coleccionistas en varios grupos de recopiladores
Nota: Esta solución alternativa afectará al reenvío de registros de PA- 7K y PA- 5200s. Debido a la capacidad del buffer y a la velocidad de registro extremadamente alta de estos FWs, los buffers pueden llegar llenos y es posible que no puedan reenviar los registros al recopilador de registros una vez que vuelva a subir.