技術とか戦略とか

IT技術者が技術や戦略について書くブログです。

障害事例は宝物

金融システムのようなミッションクリティカルなシステムの開発では、ミスは許されません。
自分が起こしたミスから学ぶのはもちろんなのですが、他者が起こしたミスから学ぶというのも大切な姿勢になります。
 
どのようなミスが障害につながるのかは障害事例を見れば勉強できるのですが、他社が起こした障害事例の詳細が表に出ることはよほど大規模な障害でなければ滅多にありません。
しかし、自社が起こした障害事例であれば、細かい障害であってもその詳細を見ることができる場合があります。
もし、自社の障害事例を見ることができるのであれば、是非見て学んでほしいというのが個人的な意見です。
 
私も前職の時、特に新人の時は暇を見つけては自社の障害事例を読んでいました。
すぐに思い出せる範囲で、ここに書いても差し支えない範囲で障害の原因となったミスの内容を書き出すと、
・小数点以下切り捨てが発生するタイミングの認識誤り
・境界値付近の条件分岐の記述ミス
・条件式の単純ミス(等号・不等号の誤り)
・計算式の単純ミス(符号や分子・分母の誤り)

といった原因で障害が発生していました。
これらはコーディングに関するミスなのですが、他にも連携先システムの仕様の認識誤りや運用ミス等の原因によっても障害は発生していました。
これらの事例を数多く学ぶことで、障害が発生しそうな雰囲気というか、そういったものがなんとなくわかるようになってきますし、重点的にレビューやテストをするべき箇所もわかってきます。
 
私が前職で障害事例を読んでいたのは、意識が高いからというよりも単に知識欲から読んでいたのですが、今思えば障害事例から学んだことは貴重でした。
繰り返しになりますが、自社の障害事例を見ることができるのであればぜひ見て欲しいと思っています。