Задания / 2 семестр / Диагностика и надежность автоматизированных систем / Лекции

4.3. Надежность систем управления процессами

Одна из причин успеха цифровых систем управления процессами — их высокая надежность, которая в целом не зависит от того, каким образом и как долго эти системы используются. Например, для ПЛК, построенного только на полупроводниках без подвижных частей, в отличие от электромеханических реле, время жизни не зависит от числа операций переключения.

Частота отказов существенно влияет на надежность системы, однако не меньшую роль играют ремонты. И с этой точки зрения электронные системы лучше, чем старые электромеханические. В случае отказа релейного оборудования поиск неисправности с помощью вольтметра занимает длительное время; наоборот, тестирование ПЛК с помощью ручного программатора и соответствующих программных средств гораздо быстрее и проще. С другой стороны, обслуживающий персонал должен иметь более серьезную подготовку и квалификацию. Отметим, что все чаще вместе ремонта электронных систем заменяют крупные и сложные системные компоненты целиком, что иногда довольно расточительно.

В системах управления процессами суммарная надежность зависит от структуры системы. При прямом цифровом управлении единственная центральная ЭВМ, на которой установлено разнородное программное обеспечение, решает все задачи сбора данных, управления и регулирования. Как следствие, ее отказ вызывает полную остановку выполнения всех функций. При распределенном прямом цифровом управлении функции управления и регулирования выполняются локальными устройствами, расположенными в непосредственной близости от технологических процессов. ЭВМ более высоких уровней иерархии передают нижестоящим устройствам вместо управляющих сигналов только опорные значения. Поломка локальной или даже центральной ЭВМ влияет только на часть функций, потому что системные компоненты независимы. Разница в надежности между этими двумя подходами явно проявилась уже при первых применениях управляющих ЭВМ – в те времена среднее время между отказами измерялось не годами, а часами.

Отказы вызываются либо неправильным функционированием отдельных элементов, либо – в сложных системах – нарушением взаимодействия между элементами. В больших системах со множеством элементов вероятность того, что некоторые из них откажут, высока и, если это влияет на работу системы как целого, ее надежность снижается.

Отказоустойчивое (fault-tolerant) решение должно гарантировать, что система как целое будет продолжать функционировать даже при наличии неисправностей. Это означает не только применение высоконадежных элементов, а скорее проектирование системы таким образом, чтобы отдельные неисправности не влияли на работу в целом. Более того, автоматизированная система состоит не только из аппаратной части, а включает также программное обеспечение, которое может содержать ошибки, либо реагировать непредсказуемым образом на непредусмотренную входную информацию, несогласованные протоколы обмена данными, внешние коммуникации и т. д.

В простейшем случае отказоустойчивая технология основывается на некоторой избыточности (redundancy). Если какая-то часть, аппаратная либо программная, не работает, то ее заменяет другой компонент. Существуют разные типы избыточности:

- физическая избыточность;

- информационная избыточность;

- избыточность по времени.

Физическая избыточность (physical redundancy) обычно достигается дублированием некоторых элементов. Когда элемент перестает работать должным образом, его заменяет другой. Если стоимость играет решающую роль, то дублируются только наиболее важные или более всего подверженные отказам компоненты. Этот принцип использован, например, в сети FDDI, в которой два канала данных построены таким образом, чтобы минимизировать влияние неисправностей, будь то пробой кабеля, отказ узла или его FDDI интерфейса. Общепринятый принцип проектирования в системах реального времени – это физическое дублирование главного сервера и локальной сети. В зависимости от специфики системы обе ЛВС могут работать с половинной загрузкой либо только одна постоянно находится в работе, а другая немедленно активизируется в случае сбоя первой.

Важными особенностями механизма физической избыточности является интерфейс между дублирующими друг друга компонентами, представляющий собой новый элемент, который может выйти из строя, и принцип выбора основного рабочего компонента. Главными проблемами являются: во-первых, как однозначно определить, что компонент или подсистема неисправны, и, во-вторых, как переключиться на дублера.

Информационная избыточность (information redundancy) используется, например, в коммуникационных протоколах в виде служебной информации, добавляемой к пакету для того, чтобы обеспечить восстановление искаженных сообщений. Резервирование данных на внешних (съемных) носителях или теневое хранение переменных (переменная храниться одновременно на двух различных дисковых устройствах) – это другие примеры информационной избыточности.

Избыточность по времени (time redundancy) заключается в том, что сначала выполняется действие, а затем оценивается его результат. Если результат неудачен, то действие выполняется заново. Таймауты и ограничения максимального количества повторений помогают избежать бесконечных циклов.

Отказоустойчивость в коммуникационных протоколах достигается комбинацией информационной и временной избыточности. Контрольные суммы в пакетах данных обеспечивают информационную избыточность, а процедуры подтверждения приема сообщения и, при необходимости, запросы на новую передачу являются примерами избыточности по времени.

Если избыточность необходима для создания отказоустойчивой системы, то должны учитываться все составные элементы, а не только самые очевидные. Например, две ЭВМ должны быть подсоединены к двум независимым источникам питания, в противном случае выход из строя источника питания, то есть однократный сбой, приведет к выходу из строя обеих ЭВМ и, таким образом, перерастет в аварию общесистемного масштаба.

Содержание