Неисправные системы

Что такое отказоустойчивость?

Отказоустойчивость описывает превосходный уровень доступности, характеризующийся временем безотказной работы 5 nines (99,999%) или выше. Системы с отказоустойчивостью способны обеспечить эти уровни доступности, поскольку они могут "терпеть" или выдерживать как аппаратные, так и программные "сбои" или отказы. Обычно они делают это либо путем упреждающего мониторинга и предотвращения сбоев критически важных систем, либо полностью снижая риск катастрофического отказа компонента или системы.

Отказоустойчивость на основе программного обеспечения в сравнении с отказоустойчивостью на основе аппаратного обеспечения.

Отказоустойчивость может быть достигнута с помощью как программного, так и аппаратного подходов.

При программном подходе все данные, передаваемые на диск, зеркалируются в системах с резервированием. Более сложные программные подходы также реплицируют нефиксированные данные, или данные в памяти, в резервированную систему. В случае сбоя основной системы вторичная система резервного копирования возобновляет работу, принимая на себя ответственность с момента сбоя основной системы, так что никакие транзакции или данные не дублируются и не теряются.

При аппаратном подходе дублирующие системы работают одновременно. Параллельные серверы выполняют идентичные задачи, так что в случае отказа одного сервера, другой сервер продолжает обрабатывать транзакции или предоставлять услуги. Такой подход основан на крайне низкой статистической вероятности одновременного выхода из строя обеих систем. На самом деле для доставки приложений нужен только один сервер, но наличие двух серверов позволяет обеспечить постоянную работу хотя бы одного из них.

Как everRun® Enterprise и ztC™ Edge обеспечивают отказоустойчивость рабочих нагрузок

Stratus everRun Корпоративное программное обеспечение и Stratus ztC Edge Вычислительные платформы используют программные подходы для обеспечения отказоустойчивости приложений и защиты данных.

Основная проблема, связанная с программными подходами, заключается в эффективной репликации данных при минимизации системных накладных расходов. Не реплицируйте достаточно данных, и время восстановления увеличивается. Слишком часто реплицируйте данные, и вы используете слишком много системных ресурсов только для обеспечения доступности.

everRun Enterprise и Stratus Redundant Linux, операционная платформа, на базе которой работает Stratus' ztC Edge решение, реплицирует все данные, записанные на диск (для высокодоступных рабочих нагрузок), и использует уникальный механизм контрольных точек для непрерывной репликации данных в памяти и состояниях процессора (для отказоустойчивых рабочих нагрузок). Все операции ввода-вывода ставятся в очередь до тех пор, пока контрольные точки не будут завершены и проверены. Собственные алгоритмы динамически регулируют частоту создания контрольных точек, основываясь на типе и количестве изменений данных и пропускной способности ввода-вывода. Если/когда один узел выходит из строя, используется двухсекундная пауза для предотвращения сценариев "разделенного мозга", в результате чего время восстановления составляет менее пяти секунд - ниже порога TCP/IP для постановки в очередь и повторной отправки запросов.

В дополнение к уникальному, высокоэффективному движку контрольных пунктов, решения Stratus отличаются простотой в эксплуатации. Не требуется никаких модификаций приложений или гостевой операционной системы, чтобы сделать их кластерными. Не требуются дополнительные сценарии обхода отказа для обеспечения доступности приложений и целостности данных. Все, что требуется, это чтобы приложения были установлены на виртуальной машине и запущены, чтобы сделать их отказоустойчивыми.

высокая доступность, отказоустойчивые системы, отказоустойчивость
отказоустойчивые системы, отказоустойчивость
отказоустойчивые системы, отказоустойчивость, высокая доступность

Как ftServer® обеспечивает отказоустойчивую рабочую нагрузку.

Stratus ftServer использует аппаратный подход для доставки отказоустойчивых приложений и данных.

Основной задачей с аппаратными подходами является обеспечение точной синхронизации процессов и потоков - обеспечение того, чтобы на обоих узлах избыточной системы происходили одни и те же вещи в одно и то же время.

Stratus ftServer использует запатентованные полевые программируемые массивы ворот (FPGA) для обеспечения пошаговой обработки блокировки в двух идентичных половинках системы ftServer . Два идентичных сменных блока заказчика (CRU) работают параллельно. Каждый из них выступает в качестве основного или вспомогательного сервера по мере необходимости. Каждый из них выполняет один и тот же процесс одновременно. В системе ftServer нет времени на восстановление в случае сбоя одного компонента или CRU. Доступный CRU просто принимает на себя роль основного сервера до тех пор, пока недоступный CRU не будет заменен. Для организаций, которые не могут терпеть даже секунды незапланированного простоя, Stratus ftServer является приемлемым вариантом.

В дополнение к использованию ППВМД и подхода, основанного на блокировке, Stratus ftServer отличается простотой в эксплуатации. Приложения, платформы виртуализации или гостевые операционные системы, которые установлены на ftServer , не требуют специальной модификации или настройки, чтобы сделать их отказоустойчивыми.