この文章は今回のau騒動について書いていますが、私自身の主観に基づくものであり、なおかつ多分に推測が含まれている事を考慮してお読みください。
モバイルデバイスの通信方式は3GからLTEへ移行された時点(2014年頃)にVoLTE(Voice over LTE)が導入され、音声データもIPネットワークとして取り扱えるようになりました。
この機能により会話をしながらもデータ通信を行えるようになりましたし、VoLTEはQoSと呼ばれているネットワークの技術による優先順位付けができることから、音声データを最優先にすることで高音質での会話ができるようになりました。
通信面では従来制御の中心部であるコアプレーンに設備していたRNC(Radio Network Controller)を基地局側にも設備できるようになり、モバイルデバイスが電波をつかむスピードが向上しました。
一般的に機能をセパレートにすれば処理速度が向上し、故障による機器全体のシャットダウンが避けられます。3GからLTEへの移行に伴い、この機能のセパレート化が進んだことにより、大容量高速通信時代となりました。利用者にとってとても利便性の良いことですが、思わぬ落とし穴もあったのです。
今回のauの騒動では、運用上のメインテナンスとしてVoLTEに接続しているルーターの交換を行ったところVoLTEからアラームが上がり、切り戻し(元の状態に戻すこと)が実施されました。ここまでの手順は作業前に想定されており、シミュレーションもしていたことでしょう。
また、「アラームが上がった」という表現から、このルーターは基地局に向かうためのものではなく、内部、おそらくコアプレーンの利用者情報や課金情報などのデータベースやセッションの制御機器へ向けたルーターであろうと推測できます。
交換したルーターの設定に不具合があったか、ルート情報やデータの行先を管理しているスパンニングツリーの情報に不具合が発生したのか、あるいはそれ以外のことが原因かは公開されていないので判りませんが、そのような状況となり、VoLTEはユーザーのリクエストを保持したまま通信の回復を待つことになりました。
なお悪いことに接続の高速化を担っている基地局側に整備されているRNCは、そのような状況に陥っていることを知らず、次から次へと通信(電波)のコネクションを確立させ、コアネットワークに対して音声データやデータ通信のセッション確立を試し続けます。
今や音声データ通信のダムと化してしまったVoLTEはその処理能力を大幅に超え、なおかつタイムアウトによりセッションを失い始めます。その一方、モバイルデバイスは定められたリトライ時間で音声データ通信のリクエストを送り続け、データ通信側はVoLTEとは無関係のところで緩慢ながら動作を続けてしまいました。
その結果、利用者の位置情報や利用状況を把握するためのデータベースに矛盾が生じてしまい、それら矛盾を解決するためのデータベースメインテナンスが必要となり、西日本と東日本に分けてその作業を実施し、大幅な時間を要することになってしまいました。
110番などの非常通信について、ソフトバンクは2017年まで3Gにフォールバックして通信する方式でしたが、現在ではVoLTEで直接接続されています。今回の騒動でも接続できなかったとの話が聞こえていますので、auも同様の方式なのだろうと思われます。
私自身も過去にネットワークの運用保守で似たような経験があり、その時は顔面蒼白になりました。なのでエンジニアの気持ちは察するに余りあり、とても気の毒だなあと思う事しか理です。ご苦労様でした。