AIOps アラート - 高可用性 - "HAピア接続ステータス」

AIOps アラート - 高可用性 - "HAピア接続ステータス」

26695
Created On 04/28/22 20:18 PM - Last Modified 08/23/23 22:21 PM


Symptom


高可用性に関する AIOps からのアラート -HAピア接続ステータス

Environment


AIOps アラート

Cause


の出力の場合>高可用性をすべて表示ショーピア情報として '接続状態: ダウン' Active または Active-Primary でfirewallの中にHAペア、AIOpsNGFWユーザーに重大なアラート

最も一般的な理由ですが、HAピアが検出されないのはHAリンクがダウンしている場合、次のような他の理由が考えられます。
• ピアfirewall処理/受信できないHAその時の心拍数(例:高CPU、高メモリ、リソースの問題、過剰使用/DDoS、リンクの問題など)
• ピアfirewall返信/送信できないHAその時の心拍数(例:高CPU、高メモリ、リソースの問題、過剰使用/DDoS、リンクの問題など)
• HA リンクhardware問題(ケーブルの不良、不良SFP、障害のあるポート、firewallバックプレーンの問題、電気的な問題)
• での遅延またはパケット損失HAリンク
• 2 つのファイアウォール間の地理的な距離HAペアが長すぎる/遠すぎるHAケーブル/SFPタイプ仕様
• 発生する可能性があるその他のシステム / プロセスの問題


Resolution


  1. 正確な日付とタイムスタンプを特定するHAフェイルオーバー /HA障害発生
  1. の中にFirewallウェブGUI、 案内するモニター>システムログ
  2. 日付とタイムスタンプに移動しますHA障害が発生したことを確認し、その頃に他のシステム ログが存在するかどうかを特定します。firewall全体的な健全性 (インターフェイスのダウン、プロセスの終了、高CPU/メモリ使用率、リンクおよびパス監視のダウンなど)
  3. 原因となった可能性のある他のイベントが見つかった場合HA接続がダウンしている場合、そのイベントの根本原因を見つけて解決します
  1. 両方のファイアウォールが要件を満たしていることを確認します HA
以下のドキュメントを使用して、両方のファイアウォールのモデルがまったく同じであることを確認します。PAN-OSバージョン、インターフェイス、ライセンス、vsys 機能など。
アクティブ/パッシブの前提条件HA
アクティブ/アクティブの前提条件HA
  1. 識別HAピア接続ダウンの理由
以下の出力を確認しますCLI原因を特定するコマンドHA両方のファイアウォールでピア接続がダウンしています。
>show high-availability all
Group 1: 
 Mode: Active-Active
Local Information:
    Mode: Active-Active
    State: active-primary (last 1 hours)
    Last non-functional state reason: Dataplane down: brdagent exiting
Peer Information:
    Connection status: down
    Connection down reason: HA1 link went down
    Last non-functional state reason: Dataplane down: user triggered

その他可能接続ダウンの理由含む:
  • ハートビート ping の失敗
  • ピアに接続できません
  • 接続エラーが検出されました
  • ピアHAエージェントの終了
  • Hello プロトコルの失敗
  • ピアとの機能交換に失敗しました
  • HA1 暗号化構成の不一致
  • SSH トンネルのリセット
 
ヒント: ' に注意することもお勧めします。最後の非機能状態の理由多くの場合、失敗の根本原因を見つけるのに役立ちます。
  1. のステータスを確認しますHAインターフェイスと解決hardwareまたは両方のファイアウォールでのソフトウェア インターフェイス/リンクの問題
  1. ダッシュボード> クリックウィジェット>システム> クリック高い可用性
HA 健全なダッシュボード
 
  1. >ハイ アベイラビリティ インターフェイスを表示 < ha1 | ha2 | ha3 >
ハイ アベイラビリティ インターフェイス ha1 を表示します
ハイ アベイラビリティ インターフェイス ha3 を表示します
  1. サポートされているSFP使用されています
常に使用SFPは、サポートされているリストからSFPの Palo Alto Networks によるHAポート。 サポートされていませんSFPは、Palo Alto Networks デバイスでの使用についてテストおよび検証されていません。 サポートされていない場合SFPが使用されている場合、インターフェイスが起動せず、フラップし、その他の問題が発生する可能性があります。 パロアルトネットワークスTACサポートされていない場合、サポートを拒否する場合がありますSFP使用されている。 現在サポートされていないSFPに置き換えます。SFPサポートされているリストからSFP先に進む前に以下を参照してください。

サポート対象一覧SFPの/トランシーバー
https://live.paloaltonetworks.com/t5/operations-documentation/transceiver-history-reference-810-000096-00y-updated-on-03-23/ta-p/227987?attachment-id=10684
https://live.paloaltonetworks.com/t5/operations-documentation/hw-accessory-cross-reference-810-000077-0av-updated-on-03-23/ta-p/63422?attachment-id=10683
現在インストールされている SFP を確認する方法
  1. 解決するhardware/既知の正常な動作を試すことによる物理的なリンクの問題hardwareコンポーネント
  • を取り付け直しますHA両方のファイアウォールのケーブル
  • を取り付け直しますHAポートSFP両方のファイアウォールで
  • を交換してくださいHA動作確認済みの正常なケーブルHA同じタイプのケーブル
  • を交換してくださいHAポートSFP動作確認済みHAポートSFP同じタイプの
上記の各手順を実行した後、HAリンクの問題がまだ発生しています
  1. 管理プレーンまたはデータプレーンのパフォーマンスの問題を解決します (高CPU、高メモリ、高パケット バッファ/パケット記述子)
管理プレーンまたはデータプレーンが何らかの理由でビジー状態になった場合、firewall確実に受信、処理、または送信できない可能性がありますHAハートビート メッセージ。 以下の手順を使用して、管理プレーンまたはデータプレーンの高い使用率を特定、トラブルシューティング、および解決します。
  1. レビューモニター>システムログの頃HA高い値があったかどうかを特定するために発生した失敗CPU/ メモリ / パケット バッファ / その間のパケット記述子の使用率
  2. 次の出力を確認しますCLIコマンド:
>システムリソースを表示する- 現在の表示MP CPU/メモリ使用量
任意の高値を探しますCPUまたは特定のプロセスの高メモリ - どのプロセスであるかを特定します (例: mgmtsrvrユーザー ID ha-エージェント logrcvrルーティングされた認証済みなど)、そのプロセスが高い理由をトラブルシューティングしますCPU/memory、それを解決する
次の例では、過剰なロギングがfirewallセキュリティでPolicyルールであり、その結果、logrcvr プロセスがfirewall管理プレーンを 100% 使用するCPU. これにより、firewallなどの問題を抱えているfirewallha_agent が応答できないHAその瞬間の鼓動。 セキュリティでログの量が減ったらPolicyルール、問題は解決し、HAまた安定した
高いCPU管理プレーンの logrcvr プロセスで - システム リソースの表示が続きます
 
>実行中のリソースモニターを表示- 現在の表示DP CPU/Memory/Packet Buffer/Packet Descriptor の使用状況

使用率が高いものを探しますCPU、パケット バッファ、パケット ディスクリプタ、またはメモリ - 使用率が高いリソースを特定し、解決します。
以下の例では、(DDoS に似た) 大量のトラフィックがサーバーを通過していました。firewallその時。 その結果、データ プレーンCPU/packet buffers/packet descriptors が頻繁に使用されるようになり、firewallHAによってハートビートを処理できませんでしたfirewall適切にインターフェースします。 問題のあるトラフィック フローが特定され、firewall 、データ プレーンの使用率が通常のレベルに戻り、HAまた安定した
高いCPUデータプレーンのパケット バッファ パケット記述子 - 実行中のリソース モニタを表示
以下のコマンドを使用して、これらのログ ファイルを確認できます。MP /DP最近の日付 + タイムスタンプでの過去の使用値HA失敗:
>以下 mp-log mp-monitor.log
>less dp0-log dp-monitor.log
  1. のリソースを使用する追加情報以下のセクションを参照して、管理プレーンまたはデータ プレーンの高い使用率をさらに特定、トラブルシューティング、および解決します。
 
  1. 確認HA状態は健全です
  1. 一度原因となった問題HAそもそもダウンしているPeer Connection Statusが特定され、解決されました(HAリンクの問題、MP /DPリソースの問題、システム プロセスの問題など)、必要に応じて、以前に異常だったユニットのサスペンドを解除します。デバイス>高可用性>運用コマンド> クリック高可用性のためにローカル デバイスを機能させる
一時停止を解除する方法 HA
  1. 確認HA両方のファイアウォールで再び正常に表示されます
ダッシュボード> クリックウィジェット>システム> クリック高可用性
ダッシュボード ウィジェット -HA - アクティブプライマリ
ダッシュボード ウィジェット -HA - アクティブ セカンダリ
 
>高可用性をすべて表示
HA 健康 CLI
 
 
 


Additional Information


管理面
例: 管理プレーンの高使用率を特定する方法
管理プレーンとデータプレーンのプロセス
「show system resources」の出力を解釈する方法
リソース リスト: パフォーマンスと安定性

データプレーン
データプレーン使用率が高い場合のトラブルシューティング方法
DoS 攻撃のトラブルシューティング方法
高パケット バッファおよびパケット記述子の問題をトラブルシューティングする方法
高パケット記述子 (オンチップ) のトラブルシューティング方法
リソース リスト: パフォーマンスと安定性

その他のリソース
Palo Alto Networks ファイアウォールのトラブルシューティング方法 (ビデオ コース)
リソース リスト: パフォーマンスの問題のトラブルシューティング
リソース リスト: 高可用性の構成とトラブルシューティング
リソース リスト: 高可用性の問題のトラブルシューティング


Actions
  • Print
  • Copy Link

    https://knowledgebase.paloaltonetworks.com/KCSArticleDetail?id=kA14u000000oNlUCAU&lang=ja&refURL=http%3A%2F%2Fknowledgebase.paloaltonetworks.com%2FKCSArticleDetail

Choose Language