こんばんは。昨日AWSが大規模障害を引き起こして、多方面に影響が出たという報道がありましたね。PayPayやユニクロ等のシステムが影響を受けてましたね。
今回の原因はサーバの熱を冷やすための冷却装置の故障だということのようです。日経xTECHの記事からです。
現在は復旧したとのことですが、混乱はあったようですね。今回の障害で「これだからクラウドは使えない。やはりオンプレだな。」とか、「絶対に落ちないシステムを作れ。稼働率100%にしろよな。」というような意見が出て来ないか心配です。
そもそも「絶対落ちないシステム」なんて実現するはずもなく、100%に限りなく近づけるということが如何に割に合わないかというお話ですよね。どうすれば伝えることが出来るのかは悩ましいですよね。
オンプレ推しおじさんには「タンス預金か銀行預金か?」で説明すれば良さそうな気もします。手元に全額現金を置いておくための管理コストを考えると、銀行に預けておく方が安全だという話かと考えています。
稼働率100%おじさんには、費用対効果面からのアプローチと、「形あるものは必ず壊れる」という観点から、壊れた際にどうするかを考えておくことの重要性を伝えることで対処出来ると見ています。
99.99%の稼働率を99.999%に上げるために、割に合わないコストがかかったとしたらどうでしょうか?そこまでしてコストをかけるでしょうか?
それなら、0.01%のリスクを受容して、その場合にどうするかを立案するためにリソースを割く方がよほど現実的ですし、費用対効果は大きくなるのではないでしょうか。