【東証システム障害】「同じIPアドレスが原因」ということだそうですが…
こんばんは。23日の日経朝刊に出ていると思われますので、後ほど確認してみることにします。こちらは電子版の記事からです。
上記記事によると、「IPアドレスの重複が原因」とあります。この記事を真正面から捉えると、「IPアドレス設定が重複しているんだったら、運用開始前の試験で気づく話じゃないのか?今回の障害発生時まで普通に動いていたことがおかしいということにはならんか?」という点が気になりました。
仮想IPアドレスの話ではなさそうですが…
ただし、ここでは複数台のサーバが仮想IPアドレスを設定していて、各サーバには本来のIPアドレスが別に設定されていて、障害の起きたサーバから切り替わったサーバが仮想IPアドレスを引き継いで継続するということは想定していません。
もし、仮想IPアドレスが各サーバに設定されていて、障害時に切り替わるのであれば、「同じIPアドレスが原因」は正しくないことになります。
だとしたら、障害時に正しく切り替わることを確認していなかったメリルリンチ日本証券側の責任になるでしょうし、東証側も接続試験時にきちんと確認していなかった責任も問われることになります。
東証側にも問題はあったかもしれません…
他の可能性として気になったのが、東証側サーバの設定でしょうか。(この場合は)メリルリンチ日本証券側のサーバのIPアドレスがそれぞれA、B、C、D(本来の値)が割り振られているとします。ただし、仮想IPが設定されておらず、サーバまたはNW障害発生時には、東証側サーバ側が検知して正常系に切り替えて接続するものとします。
メリルリンチ日本証券の各サーバと東証の各サーバが1対1で接続されているものとし、メリルリンチ日本証券側サーバAに東証側サーバaが、サーバBにサーバbが、サーバCにサーバcが、サーバDにサーバdが接続されているものとします。東証側各サーバの後ろに負荷分散装置があり、主系統が落ちた場合は最も優先度が高い副系統に自動で切り替わるものとします。(Active/Standbyだとします)
この前提だとすると、メリルリンチ日本証券側のサーバのIPアドレスが本来はA、B、C、Dと設定されているはずが、A、A、C、Dと設定されているとします。東証側サーバは通常時Aからの通信はaで受けるものとします。通常時はA-aの通信で動くものとし、これが正常に動作していたのでしょう。他の系統はStandby状態だったので、設定がおかしかったとしても気づかれなかったのかもしれません。
A-a間の通信が落ちてしまって、B-b間での通信に切り替わるものとします。しかし、メリルリンチ日本証券側のサーバBと設定されているはずのIPアドレスがAになっている状態で東証側に投げます。東証側サーバから投げるリプライパケットはIPアドレスAに対応するゲートウェイ側に流れて通信が成立しません。そのため、メリルリンチ日本証券側サーバBはリトライを繰り返して(ry
というようなことがあったのではないかと推測してみました。公開されている情報が少ないので、全て推測の域を出ません。そのため、複数の仮定が必要になります。考えていて少々混乱してきました。(ですので、文章がおかしいかもしれません。その点は御容赦のほどを。)追加情報が出次第、さらに検証して行きますので、暫しお待ち下さい。
(追記:日経XTECHに続報が出ていましたので、こちらのURLも御参照下さい。(有料会員のみ参照可になっている可能性もありますので御注意下さい))