Prisma Cloud Compute: problema de falta de memoria cuando se aplican reglas recursivas de administración de integridad de archivos

Prisma Cloud Compute: problema de falta de memoria cuando se aplican reglas recursivas de administración de integridad de archivos

4650
Created On 09/09/22 14:01 PM - Last Modified 12/27/24 08:31 AM


Symptom


>>> El uso de la CPU aumenta constantemente si el Twistlock está habilitado y si lo detenemos, los gráficos de la CPU vuelven a la normalidad.

1er síntoma:

  • Sin Prisma Cloud Compute
  1. Pod de inicio que tiene un límite bajo
  2. El pod funciona sin problemas.
  3. Todo está bien.

  • Con Prisma Cloud Compute (Twistlock)
  1. Iniciar pod de límite bajo
  2. Pod está muriendo por falta de memoria.
  3. El pod no funciona


2do síntoma:

  • El registro del núcleo muestra que la creación del contenedor se canceló debido a recursos insuficientes.
runc create failed: unable to start container process: container init was OOM-killed (memory limit too low?)



3er síntoma:

image-20220823-072505.png

4to síntoma:

  • Si compruebas los procesos, por ejemplo, con " ps aufx ", notarás que el proceso crio tiene una carga pesada, pero también que un proceso específico llamado " fsmon " consume muchos recursos. Si buscas el PID del proceso y lo eliminas, el uso de recursos debería volver a la normalidad.

Screenshot 2022-09-09 at 15.55.30.png

Síntoma 5h:
  • Errores en la salida de journalctl que indican que CRI-O no puede iniciar los contenedores o tiene demoras significativas:
Kubelet may be retrying requests that are timing out in CRI-O due to system load: context deadline exceeded
  • En particular, muchos errores de tipo "nombre reservado" como los siguientes:
Aug 19 06:40:49 muc9-4wtp8-worker-b-gen9-mbxcv crio[2252]: time="2022-08-19 06:40:49.510901803Z" level=warning msg="error reserving ctr name k8s_frontoffice-analytics-domain_frontoffice-analytics-deployment-1-zz5s8_reef-an-maxi-uat_ea9c7d33-8fea-4165-a534-106ce6c33e29_17 for id 90615636aa18fdc2a17bfef076500dfd14932a7109ca8e662c45b4708f0364bf: name is reserved"



Otros registros sintomáticos de interés:

Aug 19 10:30:46 muc9-4wtp8-worker-b-gen9-mbxcv crio[2252]: time="2022-08-19 10:30:45.691591825Z" level=error msg="Container creation error: time="2022-08-19T10:30:42Z" level=warning msg="unable to get oom kill count" error="open /sys/fs/cgroup/memory/kubepods.slice/kubepods-burstable.slice/kubepods-burstable-podff7a0d7a_17b4_4777_9146_94fc41681318.slice/crio-fd00abb205097e9244014a63265fb0f656dab4ebd9dfe1e800d0a10ec55fc42d.scope/memory.oom_control: no such file or directory"\ntime="2022-08-19T10:30:44Z" level=error msg="runc create failed: unable to start container process: unable to apply cgroup configuration: Timeout waiting for systemd to create crio-fd00abb205097e9244014a63265fb0f656dab4ebd9dfe1e800d0a10ec55fc42d.scope"\n" id=dff10a34-f28e-4370-9fff-8e895148d11d name=/runtime.v1.RuntimeService/CreateContainer
Aug 19 10:30:46 muc9-4wtp8-worker-b-gen9-mbxcv crio[2252]: time="2022-08-19 10:30:46.086315234Z" level=info msg="createCtr: deleting container ID fd00abb205097e9244014a63265fb0f656dab4ebd9dfe1e800d0a10ec55fc42d from idIndex" id=dff10a34-f28e-4370-9fff-8e895148d11d name=/runtime.v1.RuntimeService/CreateContainer



Environment


  • Computación en la nube Prisma
  • Defensor de clúster
  • Cambio abierto/CRIO


Cause


  • La causa raíz de este problema es que el proceso fsmon (proceso de supervisión del sistema de archivos ) consume muchos recursos de la CPU , lo que tiene un impacto grave en el rendimiento de todo el entorno del clúster.

  • In particular, if the customer has a lot of ?File Integrity? rules set up on his/her Cconsole, especially if recursive (i.e., tracking recursively an entire file-system tree like this "path": "/bin", "recursive": true, ...), then this feature can have severe performance impact, depending on the configured rules, when tracking lots of directories recursively.

  • In this case, the file system monitor needs to track and scan many files using fsmon, naturally introducing delays for the containers creation (containers created with runc), as these fail (or timeout as we saw above), the container runtime (crio) continues trying to spawn the containers again and again, making the system extremely busy.


Resolution


  • Puede matar el proceso fsmon o eliminar/reducir las reglas recursivas de administración de integridad de archivos con las reglas de tiempo de ejecución del host en la consola.
  • Aumentar los recursos de CPU en los nodos


Additional Information


Puede configurar FIM para detectar:
  • Lee o escribe archivos confidenciales, como certificados, secretos y archivos de configuración .
  • Binarios escritos en el sistema de archivos.
  • Software instalado de forma anormal. Por ejemplo, archivos escritos en un sistema de archivos por programas distintos de apt-get.

Para obtener más información: Defensa en tiempo de ejecución para hosts


Actions
  • Print
  • Copy Link

    https://knowledgebase.paloaltonetworks.com/KCSArticleDetail?id=kA14u000000sZ3NCAU&lang=es&refURL=http%3A%2F%2Fknowledgebase.paloaltonetworks.com%2FKCSArticleDetail

Choose Language