AIOps Alert - Alta disponibilidad - "Estado de conexión del mismo nivel"HA
62435
Created On 04/28/22 20:18 PM - Last Modified 08/23/23 22:21 PM
Symptom
Alerta de AIOps sobre alta disponibilidad - HA estado de conexión del mismo nivel
Environment
Alerta AIOps
Cause
Si la salida de >show high-availability all muestra información del mismo nivel como 'Estado de conexión: abajo' en el activo o activo-primario firewall en el HA par, AIOps for NGFW mostrará al usuario una alerta crítica
Si bien la razón más común para HA que no se detecte el par es la caída de los HA enlaces, puede haber otras razones, tales como:
• Compañero firewall no capaz de procesar / recibir HA latidos en ese momento (Ejemplo: memoria alta, alta CPU, problema de recursos, sobreutilización / DDoS, problema de enlace, etc.)
• Par firewall no puede responder a/enviar HA latidos en ese momento (Ejemplo: memoria alta, alta CPU, problema de recursos, sobreutilización/DDoS, problema de enlace, etc.)
• HA Problema de enlace hardware (cable defectuoso, defectuoso, puerto defectuosoSFP, problema de placa posterior, firewall problema eléctrico)
• Cualquier latencia o pérdida de paquetes en los enlaces• La distancia geográfica entre los HA 2 firewalls
en el HA par es demasiado larga / lejana para la especificación
del cable / tipo • Otros problemas del HA sistema /SFP proceso que pueden ocurrir
Resolution
- Identifique la fecha exacta y la marca de tiempo en que se produjo la HA conmutación por error / HA falla
- En la Firewall WebGUI, vaya a Supervisar > registros del sistema
- Navegue hasta la fecha y la marca de hora en que ocurrió la HA falla, e identifique si hay otros registros del sistema alrededor de ese momento que podrían indicar un problema con el firewall estado general (cualquier interfaz que se caiga, procesos que salgan, alta CPUutilización de memoria, monitoreo de enlaces y rutas que se caiga, etc.)
- Si se encuentran otros eventos que podrían haber contribuido a que la conexión no funcionara, busque la HA causa raíz de ese evento y resuélvalo.
- Verifique que ambos firewalls cumplan los requisitos para HA
Con el siguiente documento, verifique que ambos firewalls tengan exactamente el mismo modelo, versión, interfaces, licencias, capacidades de vsys, PAN-OS etc.
HA
Requisitos previos para activo/pasivo Requisitos previos para activo/activo HA
HA
Requisitos previos para activo/pasivo Requisitos previos para activo/activo HA
- Identificar HA el motivo de la conexión del mismo nivel
Revise el resultado del siguiente comando para identificar la causa de la HA conexión del CLI mismo nivel en ambos firewalls:
>show high-availability all Group 1: Mode: Active-Active Local Information: Mode: Active-Active State: active-primary (last 1 hours) Last non-functional state reason: Dataplane down: brdagent exiting Peer Information: Connection status: down Connection down reason: HA1 link went down Last non-functional state reason: Dataplane down: user triggered
Otras posibles razones de desconexión incluyen:
- Fallo de ping de latidos
- Nunca se puede conectar con el mismo nivel
- Error en la conexión detectado
- Agente del mismo nivel HA que sale
- Error de protocolo Hello
- Error en el intercambio de capacidades con el mismo nivel
- La configuración de cifrado HA1 no coincide
- SSH Restablecimiento del túnel
Consejo: También es una buena idea tomar nota de la "última razón de estado no funcional", ya que a menudo puede ayudarlo a encontrar la causa raíz de la falla.
- Verifique el estado de las HA interfaces y resuelva cualquier hardware problema de interfaz / enlace de software en ambos firewalls
- Panel > haga clic en Widgets > Sistema > haga clic en Alta disponibilidad
- >Mostrar interfaz de alta disponibilidad < ha1 | ha2 | ha3 >
- Verificar que se está utilizando un soporte SFP
SFPUtilice siempre 's de la lista de 's admitidos SFPpor Palo Alto Networks para los HA puertos. Los no compatibles SFPno se han probado ni validado para su uso en dispositivos de Palo Alto Networks. Si se utiliza un no compatible SFP , es probable que la interfaz nunca aparezca, fallas y otros problemas puedan ocurrir. Palo Alto Networks TAC puede rechazar el soporte si se utiliza uno no compatible SFP . Si actualmente está utilizando un no compatibleSFP, reemplácelo con un SFP de la lista de compatibles SFPa continuación antes de continuar.
Lista de
https://live.paloaltonetworks.com/t5/operations-documentation/transceiver-history-reference-810-000096-00y-updated-on-03-23/ta-p/227987?attachment-id=10684
de transceptores compatibles SFPhttps://live.paloaltonetworks.com/t5/operations-documentation/hw-accessory-cross-reference-810-000077-0av-updated-on-03-23/ta-p/63422?attachment-id=10683
Cómo ver los SFP instalados actualmente
Lista de
https://live.paloaltonetworks.com/t5/operations-documentation/transceiver-history-reference-810-000096-00y-updated-on-03-23/ta-p/227987?attachment-id=10684
de transceptores compatibles SFPhttps://live.paloaltonetworks.com/t5/operations-documentation/hw-accessory-cross-reference-810-000077-0av-updated-on-03-23/ta-p/63422?attachment-id=10683
Cómo ver los SFP instalados actualmente
- Resuelva cualquier hardwareproblema de enlace /physical probando componentes que funcionen bien o que funcionen hardware
- Vuelva a colocar el HA cable en ambos firewalls
- Vuelva a colocar el HA puerto SFP en ambos firewalls
- Reemplace el HA cable con un cable que funcione HA en buen estado del mismo tipo
- Reemplace el HA puerto con un puerto SFP SFP de trabajo conocido y en buen estado HA del mismo tipo
Después de realizar cada uno de los pasos anteriores, verifique si el problema del HA enlace sigue ocurriendo
- Resuelva cualquier problema de rendimiento del plano de administración o del plano de datos (memoria alta, alta CPU, búferes de paquetes/descriptores de paquetes altos)
Si el plano de administración o el plano de datos están demasiado ocupados por algún motivo, es posible que firewall no puedan recibir, procesar o enviar HA mensajes de latidos de manera confiable. Utilice los pasos siguientes para identificar, solucionar problemas y resolver la alta utilización del plano de administración o del plano de datos
- Revise el Monitor > los registros del sistema en el momento en que se produjo el HA error para identificar si hubo algún uso alto CPU / memoria / búfer de paquetes / descriptor de paquetes durante ese tiempo
- Compruebe el resultado de los siguientes CLI comandos:
>mostrar los recursos del sistema a continuación : muestra el uso actual MP CPUde /Memoria
Busque cualquier memoria alta o alta en un determinado proceso: identifique qué proceso es (por ejemplo: mgmtsrvr, useridd, ha-agent, logrcvr, routed, authd, etc.), solucione por qué ese proceso tiene alta CPUCPU /memory y resuélvalo
En el ejemplo siguiente, se configuró un registro excesivo en las firewall reglas de seguridad Policy y, a su vez, eso provocó que el proceso logrcvr en el usara el firewall 100% del plano CPUde administración. Esto causó que otros procesos en el tuvieran problemas como que el firewall firewall ha_agent no poder responder a HA los latidos del corazón en ese momento. Una vez que se redujo la cantidad de registro en las reglas de seguridad Policy , el problema desapareció y HA volvió a ser estable.
>show running resource-monitor - muestra el uso
actual DP CPUde /Memoria/Búfer de paquetes/Descriptor de paquetes Buscar cualquier utilización alta de , búferes de paquetes, descriptores de CPUpaquetes o memoria: identifique qué recurso tiene una alta utilización y resuélvalo
actual DP CPUde /Memoria/Búfer de paquetes/Descriptor de paquetes Buscar cualquier utilización alta de , búferes de paquetes, descriptores de CPUpaquetes o memoria: identifique qué recurso tiene una alta utilización y resuélvalo
En el siguiente ejemplo, había un gran volumen de tráfico (similar a un DDoS) que pasaba por el firewall en ese momento. Como resultado, los descriptores Data Plane CPU/packet buffers/packet se utilizaron mucho, y los firewall HA Heartbeats no pudieron ser procesados por las firewall interfaces correctamente. Una vez que se identificaron los flujos de tráfico ofensivos y se detuvo la entrada a través del , la utilización del firewallplano de datos volvió a los niveles normales y HA se estabilizó nuevamente.
Puede usar los siguientes comandos para verificar estos archivos de registro para MP/DP valores de uso en el pasado en la fecha + marca de tiempo del error recienteHA: >less mp-log
mp-monitor.log>less dp0-log dp-monitor.log
mp-monitor.log>less dp0-log dp-monitor.log
- Utilice los recursos de la sección Información adicional siguiente para identificar, solucionar problemas y resolver la utilización elevada del plano de administración o del plano de datos
- Comprobar HA que el estado es correcto
- Una vez que se haya identificado y resuelto el problema que causó HA que el estado de conexión del mismo nivel estuviera inactivo en primer lugar (HAproblema de enlace, /DP problema de recursos, problema del proceso del sistema, etc.), si es necesario, MPanule la suspensión de la unidad previamente en mal estado de los comandos operativos > de alta disponibilidad del dispositivo > > haga clic en Hacer que el dispositivo local funcione para una alta disponibilidad
- Comprobar HA que se muestra de nuevo en buen estado en ambos firewalls
Panel > haga clic en Widgets > Sistema > haga clic en Alta disponibilidad
>Mostrar alta disponibilidad todos
Additional Information
Ejemplo
de plano de administración: Cómo identificar la alta utilización del plano de administración Plano de administración frente a procesos de plano de datos Cómo interpretar la salida de "mostrar recursos del sistema"
Lista de recursos: Plano
de datos de rendimiento y estabilidad Cómo solucionar problemas de alta utilización del
plano de datos
Cómo
solucionar ataques DoS
Cómo solucionar problemas
de búfer de paquetes alto y descriptores de paquetes Cómo solucionar problemas de descriptores de paquetes altos (en chip
)Lista de recursos: rendimiento y estabilidad Otros
recursos Cómo solucionar problemas de firewalls de redes de Palo Alto (curso de vídeo)
Lista de recursos: Solución de problemas de rendimiento Lista de recursos: Configuración de alta disponibilidad y solución de problemas Lista
de recursos:
solución de problemas de alta disponibilidad