如何排除故障SD-WAN延迟、抖动和数据包丢失
39454
Created On 01/20/23 00:01 AM - Last Modified 12/10/25 01:04 AM
Objective
这PAN-OSfirewallSD-WAN功能监视器SD-WAN虚拟接口(包含物理接口ISP接口和/或VPN隧道接口)使用SD-WAN探头. 如果这些探测遇到的延迟 (ms)、抖动 (ms) 或数据包丢失 (%) 高于门槛在路径质量配置文件中配置,则该指标将被标记为不健康,因此,流量可能会更改为不同的路径.
本文档为您提供网络故障排除步骤,以缩小、验证和解决通过受影响的链路在您的网络中检测到的延迟、抖动或数据包丢失的根本原因。
提示:SD-WAN功能通过测量链路的延迟、抖动和数据包丢失来测量ICMP探测数据包,而不是实际流量数据包的延迟、抖动或数据包丢失
重要的是要记住firewall不会检查实际流量是否正在经历延迟、抖动或数据包丢失。 相反,firewall检查是否SD-WAN探测数据包在该链路上遇到延迟、抖动或数据包丢失(实际流量也会发生)。 然后,firewall只需检查这些值是否高于或低于您在该应用程序的路径质量配置文件中配置的阈值。
Environment
- PAN-OS
- SD-WAN
Procedure
- 调查哪个SD-WAN链接正在经历延迟、抖动或数据包丢失,并确定遍历该链接的哪个应用程序由于使用 Web 而超过配置的路径质量配置文件阈值UI和 CLI
Panorama > 对象 >SD-WAN链接管理 > 路径质量配置文件
这firewall措施SD-WAN延迟、抖动或数据包丢失的探测。 如果这些探测数据包遇到任何延迟、抖动或数据包丢失值,这些值高于在路径质量配置文件中为该应用程序配置的阈值SD-WAN Policy规则流量正在命中,然后该应用程序将被标记为不健康。 要查看这些应用程序的状态以及它们是否达到或超过您配置的阈值,请使用以下方法:
Panorama >SD-WAN > 监控
CLI 命令
> show sdwan path-monitor stats vif sdwan.1
===slot1 dp0 health_ver:(High sensitive) 15 (Medium sensitive) 11 (Low sensitive) 2 ===
----------------------------------------------------------------
ethernet1/1 idx: 16 Probing: Enabled Monitor-mode: Aggressive
----------------------------------------------------------------
probe-req-send:30920 State: up
probe-reply-recv:30919
packet loss : real-time crt-use change
per 1000 pkt: 0 0 0
latency jitter pkt_loss health_ver
3000ms average
real time: 16 1 0
current use: 0 0 0 2
10000ms average
real time: 16 1 0
current use: 0 1 0 8
25000ms average
real time: 16 1 0
current use: 0 0 0 2
- 识别路径(和ISP) 经历延迟、抖动或数据包丢失的流量到达其目的地
导航监控 > 流量日志并使用过滤器确定来源IP地址,目的地IP该应用程序通过该路径的流量的地址和出口接口,并验证它到达目的地所采用的路径和链接
- 打电话给你的ISP并让他们解决延迟、抖动或数据包丢失问题
如果有不是其他设备除了ISP分行和之间Hubfirewall,那么请使用您的设备解决此延迟、抖动或数据包丢失问题ISP. 注意:如果ISP声称路径上没有延迟、抖动或数据包丢失,请他们提供书面证据,尤其是因为firewall的SD-WAN ICMP探针(遍历ISP/VPN隧道)是遇到延迟、抖动或数据包丢失)。
如果有是这些路径中的其他设备(路由器、交换机等)SD-WAN除了探头ISP, 请继续执行以下步骤。
如果有是这些路径中的其他设备(路由器、交换机等)SD-WAN除了探头ISP, 请继续执行以下步骤。
- 识别哪个设备或接口(或者如果ISP) 在流量路径中导致延迟
- 查看任何第三方流量或网络监控工具,以确定在该流量路径中发生延迟的点
- 确定在此流量的路径中是否有任何配置更改或新设备引入您的网络可能导致此延迟、抖动或数据包丢失
- 登录并检查流量路径中的设备,看它们是否显示出任何处理流量问题的迹象。 从您怀疑最有可能导致遇到这种类型的缓慢的任何设备或自流量按预期工作以来引入的任何新设备开始。 提示:使用该供应商的内置流量诊断工具(数据包跟踪、数据包捕获、性能日志、流量日志等)来诊断该流量流动的原因(按源IP和目的地IP) 正在缓慢地穿过那个设备
- 沿着此流量流的路径在网络中的不同点进行数据包捕获。 并排比较网络中不同点的数据包捕获中的时间戳,以确定数据包在哪个捕获点(即设备)到达或进入/出口需要更长的时间。 这样做直到您可以缩小到直接导致延迟的单个设备或网络链接,这样您就可以在该设备上进行故障排除、解决或进行所需的配置更改。
- 检查与ISP并要求他们提供证明/证据,证明流量所采用的路径上没有延迟、数据包丢失或抖动
- 识别并减少或消除路径中任何设备或链路上的任何重负载、利用率或拥塞
检查流量路径中每条链路和设备的统计数据/健康状况,以了解是否存在任何丢弃、错误、泛洪或数据包处理问题。 这些类型的症状可能会导致数据包进入/离开设备所需的时间比正常情况下更长,这反过来又会导致最终用户报告应用程序功能缓慢。
常见的罪魁祸首包括:
常见的罪魁祸首包括:
- 遭受任何类型的 DDoS 攻击/流量泛滥的任何设备
- 重定向或代理该流量的任何设备
- 任何对不必要的流量进行严格检查的设备(解密设备)
- 任何遇到高资源问题的设备,例如高CPU、内存、缓冲区等
- 在任何必要的设备上配置 QoS,以便沿流量路径优先处理该流量的数据包
在此流量路径中的任何适当设备上配置 QoS。 因此,此特定流量将优先于其他流量,并由此路径中的设备尽快处理。 请参阅相应设备的供应商文档,了解如何在其设备上配置 QoS。
- 优化路由和路径
确保交通采用最短、最直接、最快的路线和链接到达目的地。 确认流量没有被路径上的任何安全设备不必要地重定向或代理。 暂时停止重定向或代理以确定是否是问题所在。 如果流量被无意中重定向或代理,请重新配置执行重定向或代理的设备,使其不对该流量进行重定向或代理。 然后,检查问题是否已解决或流量性能(延迟、抖动或数据包丢失)是否得到改善。
常见的罪魁祸首包括:
常见的罪魁祸首包括:
- 防火墙进行重度检查
- 解密设备
- 代理设备
- 不必要的/次优的VPN隧道路由
- (可选)降低应用程序设置或使用更轻、更快的协议/技术来传输该流量
例子:
- 限制视频质量(从 4k 到 1080p)
- 限制音频质量编解码器(来自G.722 至G.711 或G.729)
- 评估您正在使用的协议/应用程序是否有较轻的版本或实现,如果需要,带宽要求较低
- 创建对数据包丢失、延迟或抖动要求不那么严格的路径质量配置文件
如果你或你的ISP无法使应用程序/路径执行您在其当前路径质量配置文件中指定的阈值级别,您可能需要将路径质量配置文件中的数据包丢失、延迟或抖动阈值编辑为较低级别