ソフトウェアやシステムに障害が発生すると、サービス品質の低下などのトラブルを引き起こします。では、そもそもなぜソフトウェアやシステムに障害が発生するのでしょうか?ここでは、障害や故障の原因と対策を紹介します。
ソフトウェアの性能や容量が不足していると故障や障害が発生する可能性があります。とくに容量面ではシステムにかかる負荷の平均値や最大値を見積もり、適切な容量を確保することが重要です。
たとえ適切なシステム設計とサイズを実現していても、操作や設定の人的ミスによってソフトウェア障害が発生する可能性が考えられます。そのため、2人以上で確認しながらオペレーションを行うのが理想的です。
ソフトウェアに故障や障害が起こる原因はさまざま。大別すると「一般障害」「サイレント障害」「不定期に発生する一時的な障害」に分けられます。
ハードウェアの故障や通信回線の断絶などが原因となるケースです。死活監視でも対応できることが多く、一般的な監視サービスでも一般障害の検出を行えます。
疎通や故障という面で考えれば問題ないものの、パフォーマンスやレスポンスが悪化しているケースです。何らかのトラブルが発生しており、サービスレベルや品質が低下しているといえます。サイレント障害は死活監視では気づくことが困難なため、ユーザーから指摘されて初めて気づくことが多いようです。サイレント障害対策としては、リアルタイムの性能監視が必要です。
一般障害やサイレント障害とは異なり、不定期かつ一時的に発生する障害は検出が困難です。とくに迅速な発見は難しいでしょう。また再現性もないため原因の究明もしづらく、運用担当者としても対応に困る障害です。
対策としては、長期的に性能データを集めておくことが有効です。蓄積したデータをもとに原因究明や対応を考えることができるでしょう。
死活監視とは機器やシステム、ソフトウェアなどが稼働しているかを継続的にチェックするシステムです。 アクティブ監視とパッシブ監視の2タイプあり、アクティブ監視ではPING監視が有名。監視対象機器に疎通状態を確認するためのデータを送り、一定期間の応答がない場合に異常を検知します。
一方パッシブ監視では監視対象機器から定期的に送られる細切れのデータを監視しており、一定期間に渡って送出がない場合に異常を検知します。
死活監視が「サーバーが生きているかどうか」を監視するシステムであるのに対し、性能監視ではシステム障害の予防や早期発見の目的で利用されます。サーバーが稼働している前提で監視を行うため、死活監視と組み合わせて活用することが大切です。サイレント障害や不定期に発生する一時的な障害などは、性能監視によって気づくことができます。
システム障害の原因となる設計ミスや操作ミスなどは、人的なミスといえます。つまりいかに人的ミスを抑えるかがシステム障害を未然に防ぐカギとなりますが、「低予算で高精度なシステムを構築する」ことは非常に難しいのが現実。
発注する側の企業と受注する側のエンジニアのトレードオフが解決しなければ、根本的な解決は望めません。そこで「パフォーマンス・マネジメント」と「キャパシティ・マネジメント」が注目されており、ビジネスの性能とITリソースのキャパシティをバランス良く両立させることが重要だと考えられています。
全国に対応する第三者保守会社の中で、保守の種類が2種類以上あり、パーツのストックが10,000点以上の会社を選定。その中でも「障害時のスピード」「実績」「品質」というポイントで、おすすめの3社ピックアップしました。

引用元:ブレイヴコンピュータ公式HP
https://www.brave-com.jp/

引用元:データライブ公式HP
https://www.datalive.co.jp/

引用元:ネットワンネクスト公式HP
https://www.netone-next.co.jp/service/maintenance/
【選定条件】
2024年2月29日時点、Googleで「第三者保守サービス」と検索して表示された公式HPのうち、第三者保守サービスを行っている25社を調査。「全国対応」「パーツ備蓄量が10,000点以上」「保守の種別が2種類以上」の会社のうち、以下の理由から3社を選定しました。
さらに、以下の理由から3社を選定しました。
ブレイヴコンピュータ:全国の主要都市にある拠点に、顧客の専用保守パーツをストックし、最速オンサイト保守時間を実現
データライブ:第三者保守の対応実績が最も多い
ネットワンネクスト:ハイエンド機器や大型設備機器の第三者保守に加えて、再生品の販売(ECサイト)やレンタルなど網羅的にサービスを提供
※最速2時間の対象:東京23区、平日8時から20時。対象機器:富士通PRIMERGY/ETERNUS