ディスクの応答なしは判断が難しい。まるっきりダメなのか、処理が遅延しているのか。ネットワークならタイムアウトという設定があり、無通信の一定時間でエラーとなるが、ディスクのI/Oについては総合的判断が必要だ。
ストレージのメモリは、冗長の切り替えというより、複数搭載しておりその縮退利用となる。一部のユニットが故障したからといってストレージ全体の切り替えは考慮されていない。故障したユニットの切りはなしとなる。
ストレージは共有であるから、サーバの切り替えのようには判断できない。また対向先にも切り替えは影響する。複数のシステムが搭載している切り替えとは判断が難しい。
メモリは、エラーとなる前に書き込み 読み込みの 試行回数を確認しており、一定回数を超えるとエラーや故障となる。予兆は掌握できる場合がある。
さながら発生日が10月1日ということから、新規アカウントや銘柄の搭載作業のミスという可能性もあると思う。ハード故障だけが原因ではタイミングが良すぎる。
ストレージ・プロセッサーのワーキングメモリと今回言われているストレージのメモリは別であると理解しているが如何であろうか。ディスクI/Oのためのキャッシュメモリと理解している。
1部外者の感想だ。
後日、ストレージのメモリ故障が原因のハングアップで待機系ストレージに切り替わらなかったというが、故障は明示的メッセージが出るが、ハングアップは周辺がタイムアウトするまで無応答だ。この値を短くすると、時間がかかる処理の応答の際このメッセージが出るし、処理がかかる時間は予想できない。切り替わらない設定でなく、設計されていなかった。が正しい表現ではなかろうか。 しかし、7時に発生し、8時に判断して周知し始めたのは、早期判断を下し素晴らしと思う。これは人的体制のことだ。 7時は、オンライン開始のための前処理を開始するタイミングだ、10月1日の朝となるとこのタイミングたからこそ実施される何かがあったのではと想像してしまう。