WEBサイトなどのシステムを開発して、扱っている際(運用を行う)には必ずシステム上の問題が発生します。
具体的に問題というのは以下のようなことです
WEBサイトがいきなり表示されなくなった
WEBサイトが表示されるのが遅くなった
いくつかの画面のデザイン崩れが発生した
一部の機能が動作しなくなった
と挙げれば色々な種類があります。
今回はこれらのシステム障害についてお話をしていきます。
システム障害発生した際の対処について
自分が扱っているシステムに障害が発生した際には復旧作業を行わなければなりません。
もちろん扱っているシステムが、自分個人のもの、そしてユーザー影響(利用者)が居ないとか少ないシステムであれば大きな問題もなく、急いで復旧をしなくても良いかもしれません。
ただ、例えば顧客より請け負っているシステム、そしてユーザー影響がとても大きなシステム、また重要なデータを扱うシステム(個人情報など)であれば、一刻も早い復旧対応が求められますね。
完璧に修正して復旧させるよりも、暫定的に早期に復旧させる。
など、システム障害の状況やそのシステムの構造など様々な要因により判断をしなければなりません。
そのシステムを自分自身が見ている立場であれば、その判断を求められることもあるでしょう。
プログラマーやシステムエンジニアなど、システムに関わる仕事をする際には、このようなシステム障害に何度も立ち会うことになるかと思います。
これはポジティブに捉えると大きな経験になります。
普段のシステム開発や運用では、体験できることのない作業や事象、また周りとのコミュニケーションが発生します。
多くのシステム障害を経験して乗り越えてきたエンジニアというのは、とても信頼されることでしょう。
システム障害発生時対処についての詳細は、以下の記事にてまとめていますので、ご確認ください。
同じシステム障害を二度と発生させない為の対策について
システム障害が発生し一旦対処を終えて、システム自体は安定的に動き出したとします。
それでシステム障害対応は終了ではありません。
何をしなければならないか。
それは再発防止対応です。
そのまま、何もしなかった場合、同じシステム障害がまた発生する可能性もあります。
それを二度と発生させない為の対応を行うということです。
もちろんそのシステム障害内容により、再発防止の内容は異なります。
また、どれだけパワーをかけて再発防止を行うかもシステムの状況によって異なるでしょう。
ただ、誰もが同じシステム障害を再度発生させたくはありませんよね?
顧客より請け負っているシステムであれば、この再発防止策については顧客へ報告しなければならない事も普通に発生します。
顧客が納得する再発防止策を検討して実行しなければなりません。
従って、システム障害の対応と再発防止策というものはセットで考えておくべき事とした方が良いでしょう。
再発防止策については以下の記事にて詳細をまとめていますので、ご確認ください。
まとめ
今回は、システムを運用する上で必ず発生するシステム障害についてお話をしました。
内容としては以下でした。
システム開発を終えた後の長いシステム運用期間においては、どうしてもトラブルは発生します。
このトラブル、システム障害については、事前に発生しないための対処を行っておくことが1番理想です。
ただ、システムも人が作り出したものであるため完璧などはありえません。
システム障害が発生した時の具体的な対処法については今回お話をしてきました。
あとは障害を解決するために、的確に行動することが大切です。
どうしてもトラブル発生してしまった際には、動揺したりして気持ちが落ち着かない状況にもなるでしょう。
そんな際にもしっかりと冷静に対応できるように心がけていきましょう。
以上です。
コメント