AIを活用した迅速な障害解析と解決方法
続いて、NECソリューションイノベータの堀研介氏が登壇し、保守運用における生成AIによる障害対応について話をした。堀氏はAPI連携プラットフォームや顔認証決済、AI売買審査など、NECのサービス事業のクラウドSIを担当し、基盤のリーダーを務めるプロフェッショナルだ。
システム障害が発生した際、その解析に多くの時間を費やすことがある。障害は予測できないため、24時間365日対応が求められることもある。堀氏は、実際の業務で生じた障害を例に、AWSの生成AIアシスタント「Amazon Q」を用いて原因を究明した。
堀氏が紹介したトラブルは、オンプレミスのデータセンターに配備したインターネットバンキングシステムの安全性向上のため、AWS Shield Advancedを導入し、AWSへのアクセスをDirect Connect経由に変更するプロジェクトに関するものだ。結合テストでインターネット経由のアクセス時に、タイムアウトが発生し、一部の画像ファイルやHTMLファイルで応答がなくなることがあった。発生頻度も不規則で、原因特定に苦労し、解決までに4日を要した。
原因はルーティングの誤りで、複数のサブネットにデプロイされたALBのルーティングが一部間違っていた。片方はインターネットを経由していたが、もう片方はインターネットに向いていなかったため、戻りの通信が返らなかったのだ。この障害により結合テストが全てストップし、オンプレミスとクラウド間でタイムアウトの原因を切り分けるのに多くの時間を費やした。
堀氏はこの障害についてAmazon Qに質問した。検証環境として、パブリックサブネット上に2つのルーティングを設定し、そのうち片方だけ誤った状態のシンプルなHelloWorld環境を用意した。URLアクセス時の断続的なタイムアウトの原因を尋ねたところ、Amazon Qはネットワーク接続に関する問題解決のヘルプを提供した。さらに詳細な質問をしたところ、Amazon Qは自ら分析を行い、インターネットとALBの接続を確認してルーティングの誤りを見事に特定した。
この結果から堀氏は「人間では約4日かかった障害を、Amazon Qとのたった3回の会話で解決しました。障害解析もAIと一緒に行う未来がくるかもしれません」とコメントした。