AIOps 警报“进程内存耗尽 - 用户 ID”
5708
Created On 02/15/22 22:38 PM - Last Modified 01/03/25 10:21 AM
Symptom
- AIOps 发出有关“useridd”进程内存耗尽的警报
Environment
- 泛操作系统
- 人工智能运维
Cause
AIOps 检测到useridd进程内存耗尽。
Resolution
如果您收到此警报,建议收集以下故障排除数据并打开支持案例。收集数据后,考虑按照缓解步骤降低useridd进程的内存使用量,直到支持人员可以分析数据。
故障排除数据
-
收集技术支持文件( GUI :设备 > 支持单击生成技术支持文件)
-
生成跟踪文件:收集以下CLI命令的输出:
set cli pager off show clock show system software status | match useridd debug software trace user-id
-
生成核心文件:收集以下命令的输出
show clock debug software core user-id show system files set cli pager on
注意:在生成核心文件和检查“显示系统文件”之间等待几分钟,查看是否在 /var/cores 目录下生成了类似于以下名称的核心文件“useridd-20230405152400-10.1.5-h1.tar.gz”(最初核心文件将以扩展名 .xml 显示,因为它仍在形成,然后以扩展名 .core 显示,最后压缩并获取扩展名 .tar.gz) 。
如果您的防火墙是一个小型平台,那么由于磁盘空间不足,可能无法生成核心文件。
如果您的防火墙是一个小型平台,那么由于磁盘空间不足,可能无法生成核心文件。
- Export the core file (如何从 PALO ALTO NETWORKS 设备导出核心文件) and (如何将核心文件直接上传至支持 ).
scp export core-file management-plane from useridd-20230405152400-10.1.5-h1.tar.gz to username@host:path
- 注意:也可以从 UI 下的DEVICE > Support下载核心文件,单击“下载核心文件”
- 收集设备状态( GUI :设备>设置>操作-导出:导出设备状态)
- 从 AIOps 收集以下数据
- 检查内存耗尽开始的日期和时间戳。
- 检查防火墙的整体运行状况。
- 从防火墙系统和配置日志( MONITOR > 日志)中检查是否存在任何配置更改、PANOS 升级/降级或在问题开始时执行的任何其他更改,这些更改可能引发此行为。
- (可选)如果执行以下缓解步骤,请在完成步骤后收集另一个技术支持文件
- 使用以上数据开立案件。
缓解步骤
直至问题解决,请执行以下操作之一,降低 user-id 的内存使用率:
笔记: 建议在维护窗口中执行.重新启动该过程的潜在影响:
-
进程重启期间,用户 IP 映射、组映射、用户 IDD xmlAPI请求、云目录将不可用。
选项 1 -重新启动消耗过多内存的进程(建议在维护窗口中执行)
- Restart the user-id process using below command
debug software restart process user-id
选项 2 - 在HA环境中(建议在维护时段执行),
- 在主动和被动设备上禁用“抢占”模式( GUI :设备>高可用性>常规>选举设置:取消选中抢占)并提交配置更改。
- 故障转移到被动设备(从主动设备:设备 > 高可用性 > 操作 > 单击暂停本地设备)
- Restart the user-id process on the previously Active device (i.e. the current suspended device).
debug software restart process user-id
- 从CLI运行show management-clients以确保所有进程都已成功启动。
> show management-clients
Client PRI State Progress
-------------------------------------------------------------------------
ha_agent 25 init 0
sslmgr 10 init 0
authd 10 init 0
cryptod 10 init 0
dagger 10 init 0 (op cmds only)
cord 10 init 0
logd 10 init 0 (op cmds only)
reportd 10 init 0 (op cmds only)
useridd 10 init 0
distributord 10 init 0
iotd 10 init 0
Overall status: init. Progress: 0
Warnings:
Errors:
注意:重新启动该过程将暂时缓解该问题,但相同的问题可能稍后再次出现。