フォールト トレラント システム

フォールト トレランスについて

フォールト トレランスとは、ファイブ ナイン(99.999%)以上のアップタイムを特徴とする、高いレベルの可用性を指します。フォールト トレラント システムは、ハードウェアとソフトウェアの「障害」や故障に「耐える」または許容することで高可用性を確保します。 一般的には、プロアクティブな監視によって重大なシステム障害を未然に防止する、あるいは重篤なコンポーネントやシステム障害につながるリスクを徹底して減らすことで実現します。

フォールト トレランスの比較:ソフトウェアベース vs. ハードウェアベース

フォールト トレランスを実現する手法として、ソフトウェアベースとハードウェアベースのアプローチがあります。

ソフトウェアベースのアプローチでは、コミットされたディスクのすべてのデータが冗長システム全体にミラーリングされます。より高度なアプローチになると、コミットされていないデータやメモリー内のデータも冗長システムに複製されます。プライマリー システムに障害が発生すると、その瞬間からセカンダリー バックアップ システムがオペレーションを引き継ぐため、トランザクションやデータが重複したり消失したりすることはありません。

ハードウェアベースのアプローチでは、冗長システムが同時に稼働します。並列サーバーが同じタスクを実行するため、一方のサーバーに障害が発生しても、もう一方のサーバーがトランザクション処理やサービスを継続します。このアプローチは、両方のシステムが同時に故障する確率が極めて低いことに基づいています。アプリケーションの実行に実際に必要なサーバーは1台ですが、2台のサーバーを使用することで、少なくとも1台のサーバーが常に稼働することを保証します。

everRun® EnterpriseとztC™ Edgeが実現するフォールト トレラントなワークロード

Stratus everRun EnterpriseソフトウェアとStratus ztC Edgeコンピューティング プラットフォームは、ともにソフトウェアベースのアプローチを用いてフォールト トレラントなアプリケーションの稼働とデータ保護を実現しています。

ソフトウェアベースのアプローチの主な課題は、システムのオーバーヘッドを最小限に抑えながら、データのレプリケーションを効率的に実施することです。レプリケーションが不十分な場合、リカバリーに長い時間がとられます。レプリケーションの頻度が多すぎると、可用性の確保のためだけに大量のシステム リソースが消費されることになります。

everRun EnterpriseとStratus ztC Edgeソリューションのオペレーティング プラットフォームとなるStratus Redundant Linuxは、ディスクに書き込まれたすべてのデータを複製し(高可用性が要求されるワークロード向け処理)、独自のチェックポイント エンジンを使用してメモリー内のデータとCPUの状態を継続的に複製します(フォールト トレラントが要求されるワークロード向け処理)。すべてのI/Oオペレーションは、チェックポイントが完了して検証されるまでキューに保持されます。チェックポイントの頻度は、データ変更の種類や量、I/Oスループットに基づき独自のアルゴリズムで動的に調整されます。1つのノードで障害が発生すると、スプリット ブレインの回避のために2秒間一時停止したのち、5秒未満でシステムがリカバリーされます。このリカバリー時間は、リクエストのキューイングと再送信に必要なTCP/IPのしきい値を下回ります。

この独自の高効率チェックポインティング エンジンに加えて、シンプルな運用も他にはないストラタスのソリューションの特徴です。クラスターを意識して、アプリケーションやゲスト オペレーティング システムを変更する必要はありません。アプリケーションの可用性とデータ整合性の確保のために、フェイルオーバー スクリプトを追加する必要もありません。ストラタスのソリューションは、アプリケーションを仮想マシンにインストールして起動するだけでフォールト トレランスを実装できます。

ftServer®が実現するフォールト トレラントなワークロード

Stratus ftServerは、ハードウェアベースのアプローチによってフォールト トレラントなアプリケーションとデータを提供しています。

ハードウェアベースのアプローチの主な課題は、プロセスとスレッドの正確な同期を保証することです。冗長システムの両方のノードでまったく同じ処理が同時に実行されるようにする必要があります。

Stratus ftServer は、独自のFPGA(Field Programmable Gate Array)を使用して、対をなすftServerシステムの同一コンポーネントにロックステップ処理を実施します。2つの同一の顧客交換可能ユニット(CRU)は並列で実行されます。それぞれは、必要に応じてプライマリーまたはセカンダリー サーバーとなり、同じプロセスを同時に実行します。ftServerでは、1つのコンポーネントまたはCRUで障害が発生しても、リカバリーに時間はかかりません。使用可能なCRUがプライマリー サーバーとなり、障害の発生したCRUが交換されるまで処理を引き継ぎます。計画外のダウンタイムを1秒たりとも許容できない組織にとって、Stratus ftServerは最適な選択肢となります。

Stratus ftServerは、FPGAとロックステップ処理に加えて、シンプルな運用にも特徴があります。ftServerにインストールされているアプリケーション、仮想化プラットフォーム、ゲスト オペレーティング システムをフォールト トレラント化するために、特別な変更や構成は必要ありません。