フォールトトレラントシステム

フォールトトレランスとは?

フォールトトレランスとは、5 つの 9 つのアップタイム(99.999%)以上の可用性を特徴とする、優れたレベルの可用性のことを指します。フォールトトレラントシステムは、ハードウェアとソフトウェアの両方の「障害」や障害を「許容」または「耐える」ことができるため、このようなレベルの可用性を実現することができます。 一般的には、重要なシステムの障害を事前に監視して未然に防ぐか、または壊滅的なコンポーネントやシステム障害のリスクを完全に軽減することで、このような機能を実現しています。

ソフトウェアベースとハードウェアベースのフォールトトレランス

フォールトトレランスは、ソフトウェアベースのアプローチとハードウェアベースのアプローチの両方を使用して達成することができます。

ソフトウェアベースのアプローチでは、ディスクにコミットされたすべてのデータは、冗長システム全体でミラーリングされます。より洗練されたソフトウェアベースのアプローチでは、コミットされていないデータやメモリ内のデータを冗長システムに複製します。プライマリシステムに障害が発生した場合、セカンダリバックアップシステムが動作を再開し、プライマリシステムに障害が発生した瞬間から引き継ぐため、トランザクションやデータが複製されたり失われたりすることはありません。

ハードウェアベースのアプローチでは、冗長システムが同時に実行されます。並列サーバは同一のタスクを実行するため、一方のサーバに障害が発生しても、もう一方のサーバはトランザクションの処理やサービスの提供を継続します。このアプローチは、両方のシステムが同時に故障する統計的確率が非常に低いことに依存しています。アプリケーションを提供するために実際に必要なのは1台のサーバだけですが、2台のサーバを持つことで、少なくとも1台のサーバが常に稼働していることを保証することができます。

everRun® Enterprise およびztC™ Edge がフォールトトレラントなワークロードを提供する方法

ストラタス everRunエンタープライズソフトウェアとストラタス ztC Edgeコンピューティング・プラットフォームは、ソフトウェア・ベースのアプローチを使用して、フォールト・トレラント・アプリケーションを提供し、データを保護します。

ソフトウェアベースのアプローチの主な課題は、システムのオーバーヘッドを最小限に抑えながら、データを効率的に複製することです。レプリケートを十分に行わないと、リカバリ時間が長くなります。レプリケートの頻度が高すぎると、可用性を確保するためだけにシステムリソースを使いすぎてしまいます。

everRun ストラタスのztC Edge ソリューションを支えるオペレーティング・プラットフォームである Enterprise および Stratus RedundantLinux は、ディスクに書き込まれたすべてのデータを複製し(高可用性のワークロード用)、独自のチェックポイント・エンジンを使用して、メモリおよび CPU の状態のデータを継続的に複製します(フォールトトレラントなワークロード用)。チェックポイントが完了して検証されるまで、すべてのI/O操作はキューに入れられます。独自のアルゴリズムは、データ変更の種類と量、およびI/Oスループットに基づいて、チェックポイントの頻度を動的に調整します。1つのノードに障害が発生した場合でも、2秒の一時停止を使用してスプリットブレインシナリオを防止し、TCP/IPのキューイングとリクエストの再送信のしきい値を下回る5秒以下の回復時間を実現します。

ストラタスのソリューションは、独自の高効率チェックポイントエンジンに加えて、運用のシンプルさで差別化されています。クラスタ対応にするためのアプリケーションやゲスト OS の変更は必要ありません。アプリケーションの可用性とデータの整合性を確保するために、フェイルオーバースクリプトを追加する必要もありません。必要なのは、アプリケーションを仮想マシンにインストールして起動し、フォールトトレラントな状態にすることだけです。

ftServer® はどのようにフォールトトレラントなワークロードを提供するか

ストラタス ftServerは、耐障害性の高いアプリケーションやデータを提供するために、ハードウェアベースのアプローチを使用しています。

ハードウェアベースのアプローチの主な課題は、プロセスとスレッドの正確な同期を確保すること、つまり、冗長システムの両方のノードで全く同じことが同時に起こっていることを確実にすることです。

StratusftServer では、独自の FPGA (Field Programmable Gate Array) を使用して、ftServer システムの 2 つの同一のハーフにまたがるロックステップ処理を実現しています。2 つの同一の顧客交換可能なユニット (CRU) は並列に動作します。それぞれが必要に応じてプライマリサーバーまたはセカンダリサーバーとして動作します。それぞれが同じプロセスを同時に実行します。ftServer では、単一のコンポーネントや CRU に障害が発生しても復旧時間はありません。利用可能なCRUは、利用できないCRUが交換されるまで、単にプライマリサーバとして引き継ぎます。計画外のダウンタイムを 1 秒たりとも許容できない組織にとって、StratusftServer は実行可能なオプションです。

StratusftServer は、FPGA の使用とロックステップアプローチに加えて、その運用のシンプルさで差別化されています。ftServer にインストールされているアプリケーション、仮想化プラットフォーム、またはゲスト OS は、それらをフォールトトレラントにするための特別な変更や構成を必要としません。