Неисправные системы

Что такое отказоустойчивость?

Отказоустойчивость описывает превосходный уровень доступности, характеризующийся временем безотказной работы 5 nines (99,999%) или выше. Системы с отказоустойчивостью способны обеспечить эти уровни доступности, поскольку они могут "терпеть" или выдерживать как аппаратные, так и программные "сбои" или отказы. Обычно они делают это либо путем упреждающего мониторинга и предотвращения сбоев критически важных систем, либо полностью снижая риск катастрофического отказа компонента или системы.

Отказоустойчивость на основе программного обеспечения в сравнении с отказоустойчивостью на основе аппаратного обеспечения.

Отказоустойчивость может быть достигнута с помощью как программного, так и аппаратного подходов.

При программном подходе все данные, передаваемые на диск, зеркалируются в системах с резервированием. Более сложные программные подходы также реплицируют нефиксированные данные, или данные в памяти, в резервированную систему. В случае сбоя основной системы вторичная система резервного копирования возобновляет работу, принимая на себя ответственность с момента сбоя основной системы, так что никакие транзакции или данные не дублируются и не теряются.

При аппаратном подходе дублирующие системы работают одновременно. Параллельные серверы выполняют идентичные задачи, так что в случае отказа одного сервера, другой сервер продолжает обрабатывать транзакции или предоставлять услуги. Такой подход основан на крайне низкой статистической вероятности одновременного выхода из строя обеих систем. На самом деле для доставки приложений нужен только один сервер, но наличие двух серверов позволяет обеспечить постоянную работу хотя бы одного из них.

Как everRun® Enterprise и ztC™ Edge обеспечивают отказоустойчивые рабочие нагрузки.

Стратус everRun Программное обеспечение для предприятий и Стратус ztC Edge В обеих вычислительных платформах используются программные подходы для предоставления отказоустойчивых приложений и защиты данных.

Основная проблема, связанная с программными подходами, заключается в эффективной репликации данных при минимизации системных накладных расходов. Не реплицируйте достаточно данных, и время восстановления увеличивается. Слишком часто реплицируйте данные, и вы используете слишком много системных ресурсов только для обеспечения доступности.

everRun Enterprise и Stratus Redundant Linux, операционная платформа, поддерживающая решение ztC Edge Stratus, реплицирует все данные, записанные на диск (для высокодоступных рабочих нагрузок) и использует уникальный механизм контроля для непрерывной репликации данных в памяти и состояниях процессора (для отказоустойчивых рабочих нагрузок). Все операции ввода/вывода ставятся в очередь до тех пор, пока не будут завершены и проверены контрольные точки. Запатентованные алгоритмы динамически регулируют частоту контрольно-пропускных пунктов в зависимости от типа и количества изменений данных и пропускной способности ввода/вывода. Если/когда один узел выходит из строя, используется двухсекундная пауза для предотвращения раскола мозга сценариев, что приводит к суб-пять секунд времени восстановления - ниже TCP/IP порога для постановки в очередь и повторной отправки запросов.

В дополнение к уникальному, высокоэффективному движку контрольно-пропускных пунктов, решения Stratus отличаются простотой в эксплуатации. Не требуется никаких модификаций приложений или гостевой операционной системы, чтобы сделать их кластерными. Не требуются дополнительные сценарии обхода отказа для обеспечения доступности приложений и целостности данных. Все, что требуется, это чтобы приложения были установлены на виртуальной машине и запущены, чтобы сделать их отказоустойчивыми.

Как ftServer® обеспечивает отказоустойчивую рабочую нагрузку.

Стратус ftServer использует аппаратный подход для доставки отказоустойчивых приложений и данных.

Основной задачей с аппаратными подходами является обеспечение точной синхронизации процессов и потоков - обеспечение того, чтобы на обоих узлах избыточной системы происходили одни и те же вещи в одно и то же время.

Stratus ftServer использует запатентованные полевые программируемые массивы затворов (FPGA) для обеспечения пошаговой обработки блокировок в двух идентичных половинках системы ftServer . Два идентичных сменных блока (CRU) работают параллельно. Каждый из них действует в качестве первичного или вторичного сервера по мере необходимости. Каждый из них выполняет один и тот же процесс одновременно. В системе ftServer нет времени на восстановление в случае сбоя одного компонента или CRU. Доступный CRU просто принимает на себя роль основного сервера до тех пор, пока недоступный CRU не будет заменен. Для организаций, которые не могут выдержать даже секунду незапланированного простоя, жизнеспособным вариантом является Stratus ftServer .

В дополнение к использованию ПЛИС и блокировочного подхода, Stratus ftServer отличается простотой в эксплуатации. Приложения, платформы виртуализации или гостевые операционные системы, которые установлены на ftServer , не требуют специальной модификации или настройки, чтобы сделать их отказоустойчивыми.