障害とリカバリー:体験記
障害とリカバリー
障害
最近体験した障害です。
あるシステムのメンテナンス中に、エラー音がなっていました。
作業員は保守をやったことがあったので、エラー音はあるボタンを押せば収まることを体験上知っていたので、ボタンをおしました。
しかし、そのボタンを押したところで収まりませんでした。
そのため、ボタンを長押ししてしまったところ、再起動が発生してしまいました。
また、エラー音は作業とは別のシステムでなっており、作業中にコンセントにひっかけて電源が切れてしまって鳴らしていたというものです。
この時作業員は何をすべきだったのでしょうか。
私の考え
結果論にはなりますが、一度押しておさまらないんであれば、責任者に連絡するべきだったのではないでしょうか。
なぜなら、パニックになってしまっているのでどのシステムからなっているかを確認できておりません。
また、中途半端な知識のもとリカバーしようとして再起動してしまい障害が広がってしまっています。
障害がおきたら深呼吸や立ち止まったりすることがすごく大事です。
私も何回か体験したことはありますが、まずは、状況分析です。
本来は危険予知で防ぐべきなんですが、それでも障害が起きてしまうとパニックになるので、起きても深呼吸というイメージをしておくだけでもだいぶましになります。
起こさないことを考えるのも大事ですが、起こした後にすることを考えておくのも大事です。
私はだいぶ煙たがられますが、作業が始まる前には障害を起こした後にすることを確認します。(切り戻しだけではなく)
それだけで、作業が楽になるし、生じてもこうしたらいいわってなるのでリラックスして対応できるのです。
総評
今回の作業員が悪いといってしまえばそうなんでしょうが、割と同じようなことしてる人いますよね。
ばれないようにこっそり修正して、後でバグが発生し大問題になるようなものとか、ケーブルが半差しになってるように見えたから押し込んでみたら爪(ひっかかり)がなかったせいでケーブルが完全に抜けてしまい断が生じたようなものとか。
何気なくやってるんですね、それで修正されてしまうことを体験してるので。
ただ、修正されなかったらどうなるとかはしっかりと考えて行動したほうがいいです。
やらないじゃなくて考えて行動するです。
その場の最適解を自分の頭で考えるのです。
無視した場合に後で無視したことがばれたらどうなるかも含めて。