SBの通信障害と所感:雑記
SBの大規模通信障害
ソフトウェアの障害
原因は証明書の期限切れということ。
想像になりますが、原因はOSの更新、もしくはインストールした際に証明書の期限が想定より短く設定されてしまったことでしょう。
OSのダウングレードでの復旧
キャリア屋さんはインフラ機器の更新は基本的にメーカーにやらせます。
失敗した時の影響範囲が図りしれないので満を持して行うのです。
何かあった時の切り戻しポイントが多い手順書を見ると嫌になりますが、失敗したら何万人のインフラが止まるわけですから。
また、スモールスタートと言って一回目の作業は影響人数が少ないとこが選ばれたりします。
さらに、オペレーションについては基本的に東西でわかれているので日本全域に同時に影響を与えるのは難しかったりします。
そのため、日本のほぼ全域に影響を与えようと思うと、機器のロット単位の不具合かそのうえで動いているOSとなり、OSのダウングレードを試すと復旧したのでしょう。
そのあとVersion差分を確認したら証明書の期限がおかしくなっていたことに気が付いたというわけだと思います。
正直、ロット単位の不具合じゃなくてよかったと思います。
今回はエリクソンの証明書だったが。。。
Ciscoにはスマートライセンスというライセンス管理システムを導入しようとしているようです。
ライセンスの日付を間違えると似たようなことがおきないでしょうか。
オペレーションミスならいいでしょう、ハックされて過去の日付に全部書き換えられたらどうなるでしょうか。
考えるだけでもおそろしい。
他にも知らないだけで似たようなライセンス管理系やアップデートができないためい動作ができない機器がたくさんあるのかもしれません。
Ciscoに関しては、使われてるところが多いので影響範囲は今回の比にはならないでしょう。
インフラのほとんどの機器がCiscoが担ってますから。
HuaweiとかNECとか住友とかEricsson等もいますがそれでもCiscoが多いです。
総評
インターネットに簡単につながり自動化で管理するのには適した時代になったのかもしれません。
ただ、それで動作を停止するようなシステムは気をつけないといけません。
SBだからかぁ、Ericssonだからかぁとかじゃないですね。
実は身近に自動更新しててインターネットにつながらなかったりしただけで、使えなくなるような機器があるのではないでしょうか。
冗長化いってますが、キャリアが違っても使ってる機器は一緒だったりするのであんまり意味がありません。
EricssonだったからSBだったけどCiscoだったらNTTとKDDIだったかもしれません。
NECだったら3キャリアともだめだったかもしれません。
格安についてはMVNOなのでこの3キャリアが死んだらもちろん巻き込まれます。
そうなったら携帯はつかえません。
ただ死ぬわけではありませんので、冷静になりましょう。
(取引している人は諦めるしかありません。
冗長という意味で海外のSIMを使ってみてはどうでしょうか)
今回のはインフラについて考えるいい機会になったのではないでしょうか。