Разработка проектной и конструкторской документации

40 лет RCM: как начать надежностно-ориентированное техническое обслуживание

Раздел: Техника

В данной статье дается краткое введение в методологию RCM (Reliability Centered Maintenance) – обслуживание, ориентированное на безотказность. Представлен подход, согласно которому начинать RCM необходимо с приоритизации оборудования. Описан алгоритм приоритизации на основе рекомендаций стандартов.

В текущем году исполняется 40 лет с тех пор, как Стэнли Ноулан и Говард Хип в своем основополагающем исследовании [1] представили методологию RCM (Reliability Centered Maintenance). Их идея состояла в том, что правила обслуживания оборудования должны определяться последствиями отказа, а не только природой и параметрами самого отказа. Аналогичную идею мы находим у отечественных специалистов по надежности, в публикациях того времени [2].
Затем существенный вклад в развитие и популяризацию RCM внес Джон Мубрей [3]. К настоящему времени накопился значительный массив публикаций, посвященных RCM, включая книги [4-6]. Разработаны соответствующие международные и национальные стандарты, как за рубежом [7-9], так и в России [10, 11]. Развивается практика успешного применения RCM в России [12, 13].

Введение в RCM:

Несмотря на весьма зрелый возраст, методология RCM остается покрытой завесой сложности. Возникли и некоторые заблуждения. Например, встречается утверждение, что RCM – это стратегия технического обслуживания и ремонта (ТОиР). Чтобы убедиться в ошибочности этого, обратимся к стандарту [10].
В нем дан русскоязычный аналог RCM – надежностно-ориентированное техническое обслуживание (НОТО). И определено, что НОТО (RCM) представляет собой методологию выявления и выбора политик управления отказами. Политика управления отказами может включать в себя действия по техническому обслуживанию, изменения правил эксплуатации, конструктивные доработки и другие действия, нацеленные на ослабление последствий отказов, которые в стандарте [11] названы разовыми преобразованиями. К ним также относятся изменение методов, используемых при выполнении определенной работы ТОиР, изменение способностей персонала (обучение).

Рис. 1. Результаты выполнения семи этапов RCM-процесса

Таким образом, RCM это не какая-то стратегия ТОиР. Это методология выявления и выбора политик управления отказами и формирования из них программы работ, сочетающей различные стратегии ТОиР и разовые преобразования, и отвечающей профилю рисков, связанных с отказами.

Процесс RCM, описанный в стандарте [7], представлен схемой из семи этапов на рис. 1. Мы называем эти действия «7 шагов RCM». Их содержание состоит в следующем:

1. Провести функциональный анализ и выявить выполняемые оборудованием функции. Определить требования к выполнению каждой функции в данных условиях эксплуатации, отклонение от которых считается отказом, включая требования к безопасности и экологии (стандарт производительности). Пример функции: производство сжатого воздуха компрессором с производительностью 2 м³/мин.

2. Определить, что является функциональным отказом в отношении каждой функции оборудования. Примеры функциональных отказов: а) компрессор не выдает сжатый воздух, б) компрессор выдает сжатый воздух с производительностью 1 м³/мин.

3. Определить причины каждого функционального отказа (виды отказа). При этом должна быть определена первопричина (коренная причина). Для определения первопричины используется техника «Пять почему», разработанная в рамках производственной системы корпорации «Тойота». Пример: компрессор не выдает сжатый воздух – почему? – не работает электродвигатель компрессора – почему? – сработала защита по току статора – почему? – разрушился подшипник электродвигателя – почему? – произошло засорение подшипника абразивными материалами – почему? – в данных условиях эксплуатации кожух электродвигателя не обеспечивает должную защиту подшипника от засорения.

4. Определить каковы последствия каждого функционального отказа. Например, в случае отказа «компрессор не выдает сжатый воздух» последствия могут быть следующими: не работает пневмоинструмент, продукция не выпускается, последствий для безопасности и экологии нет.

5. Определить критичность каждого функционального отказа. Для этого необходимо количественно оценить последствия отказа и частоту (вероятность) их возникновения. Допустим, в нашем случае происходит остановка производства на 1 час для перехода на резервный компрессор, и образуется недовыпуск продукции на соответствующую сумму. Отказ происходит каждые 2 суток.

6. Выработать применимую и эффективную стратегию ТОиР в отношении каждого отказа. Стратегия считается применимой, если она способна снизить критичность данного отказа (уменьшить вероятность отказа и/или его последствия), и эффективной, если затраты на ее реализацию менее значимы, чем последствия отказа. В нашем случае предупредительное обслуживание с очисткой подшипника и заменой смазки применимо, но не эффективно, так как его требуется проводить каждую смену, с остановкой компрессора и производства на 20 минут. В результате за 2 суток образуется еще больший недовыпуск продукции, чем при отказе и переходе на резервный компрессор.

7. Определить, возможны ли эффективные разовые преобразования. В нашем случае эффективной будет политика управления отказом «конструктивная доработка» - разработка, изготовление и установка дополнительного защитного кожуха.

Полный RCM-анализ в отношении всего технологического оборудования – очень трудоемкий и длительный процесс. Он откладывает внедрение оптимальных программ работ и получение эффекта. Далеко не каждый руководитель готов к длительному проекту, со значительной загрузкой персонала и туманными перспективами. Именно это в значительной степени сдерживает внедрение RCM.

Мы рекомендуем при проведении RCM устанавливать разумные пределы. Хорошим инструментом здесь является принцип Парето, который гласит: 80% проблем являются следствием 20% причин. В нашем случае это означает, что нужно выделить ~20% оборудования, приносящего львиную долю (~80%) тяжести последствий отказов.

Иначе говоря, стандартным семи шагам RCM должна предшествовать приоритизация. Она позволяет выявить наиболее критичные элементы оборудования, сосредоточить на них внимание и ограниченные ресурсы, и быстрее достичь значимого эффекта от RCM.

Конечно, еще раньше должен быть сформирован перечень основного технологического оборудования, проведена паспортизация, систематизирована информация о выполняемых работах по ТОиР, накоплены достоверные данные по затратам на ТОиР – как плановым, так и фактическим, собрана статистика по дефектам, отказам и их последствиям, по простоям с указанием их причин. Эти задачи решаются посредством внедрения и использования информационной системы управления ТОиР (ИСУ ТОиР). Разработка, внедрение и эксплуатация ИСУ ТОиР – это особая тема, которая находится за рамками данной статьи. Ранее она достаточно подробно освещалась [14, 15].

Принципы приоритизации оборудования:

Для проведения приоритизации необходимо разделить оборудование на агрегаты, агрегаты на системы, а системы на узлы. Здесь мы, совместно с экспертами заказчика, применяем следующий подход:

1. идентифицируем агрегаты, проводим их приоритизацию (выделяем критичные),

2. только критичные агрегаты разделяем на системы, и приоритизируем системы,

3. только критичные системы разделяем на узлы, и приоритизируем узлы,

4. проводим RCM-анализ критичных узлов, а на уровне агрегатов и систем RCM-анализ на этом останавливается.

Идентификация агрегатов осуществляется с использованием качественного и количественного признаков. Качественный признак:

· агрегат – это отдельно стоящая в цеху крупная единица оборудования, решающая определенную производственную задачу;

· агрегат либо добавляет ценность в производственном процессе (основной агрегат), либо способствует этому (вспомогательный агрегат).

Количественный признак: в цеху может быть ориентировочно от 10 до 100 агрегатов. Примеры агрегатов: компрессор, кран, конвейер, трансформатор.

Для идентификации систем используем функциональный признак: система – это часть агрегата, выполняющая независимую функцию. Проводим функциональный анализ агрегата, идентифицируем функции его систем, идентифицируем сами системы. Полезен и количественный признак: в агрегате может быть примерно от 5 до 20 систем. Одна система может включать разные виды оборудования (механическое, энергетическое). Примеры систем: система электроснабжения, система привода, система охлаждения, механизм подъема, металлоконструкции агрегата.

Для разбиения систем на узлы исходим из того, что узел – это часть системы, которую можно заменить при ремонте. Количество узлов в системе, ориентировочно, от 5 до 15. Примеры узлов: электродвигатель, редуктор, гидроцилиндр.

Чтобы приоритизировать оборудование необходимо отранжировать его в порядке убывания индекса критичности отказов, а потом идентифицировать объекты, вошедшие в верхнюю часть списка. В качестве индекса критичности используем RPN (Risk Priority Number) – значение приоритетности риска, рекомендуемое стандартом [16]:

RPN=SOD, где

S – тяжесть последствий отказа данной единицы оборудования,

O – вероятность отказа этого оборудования в течение определенного периода времени,

D – вероятность, что отказ не будет обнаружен до проявления его последствий.

Множители, входящие в RPN, определяются как ранг по шкале от 1 до 5 или от 1 до 10, а не как фактическое значение вероятности или тяжести последствий.

Ранг вероятности отказа «O» устанавливаем пропорционально частоте отказов данного оборудования (число отказов в сутки, в неделю, в месяц, в год). Эти данные должны накапливаться в ИСУ ТОиР по ходу эксплуатации оборудования. Если же статистики отказов нет, или она неполная, привлекаются специалисты предприятия по направлениям, хорошо знакомые с работой данного оборудования – механики, электрики, гидравлики, технологи. Их экспертные оценки используют при определении величины «О».

Для определения тяжести последствий отказа «S» учитываем категории последствий согласно [7, 16]:

· последствия для безопасности (отказ может повлечь гибель или травмы людей),

· экологические последствия (отказ может повлечь вред окружающей среде),

· производственные последствия (отказ влияет на выполнение оборудованием своих функций и может повлечь снижение производительности и/или качества),

· экономические последствия (последствия отказа проявляются только в повреждении оборудования и выражаются в необходимых затратах на ремонт).

Последствия могут выражаться различными сочетаниями указанных категорий. Источником данных по последствиям отказов также может служить ИСУ ТОиР, а для их уточнения при проведении RCM-анализа также привлекаются специалисты предприятия по направлениям.

Шкалу величин, входящих в RPN, выберем из следующих соображений. Отказы систем или узлов происходят гораздо чаще, чем отказы агрегатов, так как отказ системы или узла может не приводить к отказу агрегата. Поэтому разброс частоты отказа систем и узлов значительно шире, чем у агрегатов.

Системы и узлы имеют также широкий разброс последствий отказа – от полного сохранения работоспособности агрегата/системы до снижения уровня выполнения основной или вспомогательной функции агрегата/системы, или полного отказа основной или вспомогательной функции без последствий для безопасности или с таковыми.

В этой связи шкалу от 1 до 10 используем для расчета RPN систем и узлов, а шкалу от 1 до 5 – для расчета RPN агрегатов.

Приоритизация агрегатов

Приведем пример приоритизации агрегатов. На уровне агрегатов используем сокращенное выражение для расчета RPN, рекомендованное [16]:

RPN=SO.

Исключение из расчета величины D связано с тем, что средства обнаружения (предсказания) отказов применяются на уровне систем и узлов, а не на уровне агрегатов.

Величину S определим следующим образом:

S = (1 + H +E) (S₁ + S₂),

где

H – ранг последствий для безопасности людей (Health),

E – ранг экологических последствий (Environment),

S₁ – ранг производственных последствий,

S₂ – ранг экономических последствий.

Последствия для безопасности людей и экологические последствия будем считать неприемлемыми независимо от их масштаба. Поэтому для «H» и «E» установим короткую шкалу ранга от 0 до 1, и будем присваивать соответствующий ранг следующим образом:

0 – соответствующие последствия отказа агрегата отсутствуют,

1 – отказ агрегата может привести к нарушению нормативных требований по охране труда или окружающей среды, к причинению вреда здоровью людей или выбросу (утечке) опасных веществ.

Если «H» и/или «E» окажутся равными единице, то значение S увеличится в разы, а значит во столько же увеличится индекс критичности RPN. Это соответствует принятому допущению о неприемлемости последствий для безопасности людей и экологических последствий. Для определения значений «H» и «E» должны быть привлечены специалисты по охране труда и промышленной безопасности (экологии) предприятия.

Пусть в некотором цеху идентифицированы 10 агрегатов, условно назовем их «Агрегат 1», «Агрегат 2», … «Агрегат 10». Ранг вероятности отказа «O» для каждого агрегата определим исходя из числа его отказов в год.

Величину S₁ для каждого агрегата определим исходя из накопленной за год длительности внеплановых простоев данного агрегата по причине отказов, а S₂ – исходя из объема средств, затраченных за год на устранение его отказов.

Сведем данные по всем 10 агрегатам в таблицу и упорядочим их в порядке убывания числа отказов, времени внеплановых простоев и затрат на ремонт (см. таблицу 1).

Таблица 1. Ранжирование агрегатов по частоте и последствиям отказов

Руководствуясь принципом Парето, выделим 20% позиций в верхней части списка (ТОП20) и присвоим им высший ранг – 5. Граница отсечения верхней части списка (20%) не является жестко заданной. Привлекаемые эксперты могут понизить эту границу и установить другое значение соответствующего параметра, начиная с которого присваивается ранг 5 – например, как это сделано в колонке «Затраты на ремонт» таблицы 1.

Оставшимся позициям присвоим ранг от 1 до 4 по линейной шкале. Для этого нижнее значение ТОП20 следует разделить на четыре (например, 60:4=15), чтобы получить шаг шкалы, и установить соответствие, как это сделано в таблице 2.

Таблица 2. Формирование шкалы для ранжирования агрегатов

Учтем значения «H» и «E» для каждого агрегата, и определим значения RPN. Затем отранжируем агрегаты в порядке убывания RPN, как показано в таблице 3.

Снова применим принцип Парето, и выделим 20% позиций в верхней части списка. Таким образом, результатом приоритизации является идентификация двух критичных агрегатов – это Агрегат 1 и Агрегат 2.

Таблица 3. Ранжирование агрегатов по величине RPN

Далее Агрегат 1 и Агрегат 2 должны быть разделены на системы и должна быть проведена приоритизация систем этих агрегатов. Продемонстрируем это на примере.

Приоритизация систем и узлов

Будем использовать полное выражение для расчета RPN и единую шкалу рангов от 1 до 10 для всех систем указанных агрегатов. Воспользуемся рекомендациями стандартов и сформируем шкалу для величин, входящих в выражение для RPN, как это сделано в таблицах 4, 5 и 6.

Если в ИСУ ТОиР корректно ведется статистика отказов с привязкой к системам, с указанием их последствий, то эти данные будут очень полезны для формирования таблицы 4. В любом случае привлекаются специалисты предприятия, хорошо знакомые с работой и отказами Агрегата 1 и Агрегата 2, как минимум для верификации полученной шкалы рангов. Такие специалисты должны обладать достаточными знаниями, чтобы дать экспертную оценку возможных последствий отказов систем.

Таблица 4. Шкала тяжести последствий отказов систем

Для формирования таблицы 5 нужна информация о наблюдаемой частоте отказов систем, находящихся в эксплуатации, в том числе о минимальном и максимальном значении частоты. Соответственно, минимальной частоте отказов ставится в соответствие ранг 1, а максимальной – ранг 10. Допустим, по наблюдениям персонала предприятия или по данным ИСУ ТОиР у какой-то системы зафиксированы самые интенсивные отказы с частотой примерно 1 раз сутки, а у какой-то – самые редкие отказы с частотой 1 раз в 6 лет.

Примем одни сутки в качестве интервала, в течение которого оценивается вероятность отказа, и интерпретируем рекомендации стандарта [16]. Тогда получим, что следующим категориям отказов соответствует следующая частота отказов:

частый отказ – 1 раз в 5 суток и чаще,

вероятный отказ – 1 раз в 10 суток и чаще,

возможный отказ – 1 раз в 100 суток и чаще,

редкий отказ – 1 раз в 1000 суток и чаще,

невероятный отказ – реже 1 раза в 1000 суток.

Сформируем таблицу 5, предусмотрев дополнительную градацию частоты отказов.

Таблица 5. Шкала вероятности отказов систем

При формировании таблицы 6 учитывают наличие/отсутствие технических средств и операций контроля (приборы и системы, выполняющие защитную функцию, обходы, техническая диагностика), позволяющих обнаружить появление и развитие потенциального отказа до проявления его последствий и за время, достаточное для предотвращения отказа (P-F-интервал). Таким образом, вместо фактической вероятности обнаружения, отказы ранжируют по наличию возможности их обнаружения.

Таблица 6. Шкала вероятности обнаружения отказов систем

Очевидно, что с учетом возможных значений S, O и D, величина RPN будет изменяться от 1 до 1000. Руководствуясь правилом Парето, установим, что критичными являются верхние 20% диапазона величин S, O и D. Это соответствует их значениям от 8 до 10. Таким образом, критичными в нашем анализе будут значения RPN от 8х8х8=512 до 10х10х10=1000. С некоторым запасом установим нижнюю границу критичности на уровне RPN=500, а диапазон ниже 500 разделим на две равные части: некритичные (от 1 до 249) и умеренно критичные (от 250 до 499). Такую шкалу RPN можно представить так, как показано на рис.2.

Рис. 2. Шкала приоритетности риска RPN

Предположим, что в составе Агрегата 1 идентифицированы 10 систем. Условно назовем их «Система 1», «Система 2», … «Система 10». Определим значения S, O, D и RPN для каждой системы, руководствуясь сформированными выше шкалами. При этом также будем руководствоваться следующим:

· величину S необходимо определять исходя из наихудшего из возможных сценариев последствий отказа данной системы;

· при определении O необходимо учитывать даже те отказы системы, которые не имеют последствий;

· при определении величины D необходимо учитывать не только возможность обнаружения потенциального отказа, но и скорость его развития: если после обнаружения будет недостаточно времени для предотвращения отказа, то D=10.

После расчета RPN упорядочим все системы Агрегата 1 в порядке убывания RPN. В этом случае получим результат, похожий на таблицу 7.

Таблица 7. Ранжирование систем Агрегата 1 по величине RPN

Из таблицы 7 следует, что критичными являются отказы Системы 2, Системы 3 и Системы 5, умеренно критичными – отказы Системы 4 и Системы 8, а некритичными – отказы остальных систем Агрегата 1. В этой связи далее необходимо:

· разделить системы 2, 3 и 5 на узлы, провести приоритизацию узлов путем расчета RPN и с использованием шкал, аналогичных приведенным в таблицах 4-6 (вместо агрегата в таблицах должна фигурировать система, а вместо системы – узел),

· детально проанализировать отказы выявленных критичных узлов по методу RCM: найти первопричины каждого отказа, выработать политики управления отказом, выбрать наиболее эффективную политику, обеспечивающую быстрое улучшение – то есть пройти по семи шагам RCM, представленным на рис.1,

· провести выборочный поиск первопричин отказов Системы 4 и Системы 8 без полного разделения на узлы, выработать политики управления рассмотренными отказами,

· дальнейший анализ систем 1, 6, 7, 9 и 10 на данном этапе не проводить.

Аналогичную приоритизацию систем и узлов следует провести для второго критичного агрегата – для Агрегата 2.

Цикличность и непрерывное улучшение

Выбранные политики управления отказами должны привести к снижению S, O или D соответствующих узлов, либо одновременно двух или всех трех перечисленных составляющих RPN.

В свою очередь, это приведет к уменьшению RPN критичных и умеренно критичных систем, а также к уменьшению RPN Агрегата 1 и Агрегата 2.

После этого необходимо провести повторно приоритизацию, повторить весь описанный выше алгоритм и семь шагов RCM на более низком уровне рисков. Не существует принципиальных ограничений количества таких циклов.

Цикличность позволит также оценивать эффективность принятых ранее решений, и производить их пересмотр, обеспечивая выполнение принципа непрерывного улучшения.

Список литературы

1. Nowlan F. S., Heap H. F. Reliability-centered Maintenance. San Francisco: Dolby Access Press, 1978. – 466 p.

2. Нейман В.Г., Шапиро Б.В. Оценка критичности отказов технических устройств// Надежность и контроль качества. – 1975. – №10. – С. 49-51.

3. Moubray J. Reliability-centered Maintenance. Second Edition. NY: Industrial Press Inc, 1997. – 426 p.

4. Neil B. Bloom. Reliability Centered Maintenance: Implementation Made Simple. NY: McGraw-Hill, 2005. – 291 p.

5. Ефремов Л.В. Проблемы управления надежностно–ориентированной технической эксплуатацией машин. – СПб: Art-Xpress, 2015. – 206 с.

6. Jesus R. Sifonte, James V. Reyes-Picknell. Reliability Centered Maintenance – Reengineered: Practical Optimization of the RCM Process with RCM-R. CRC Press, 2017. – 349 p.

7. SAE JA 1011:2009. Evaluation Criteria for Reliability-Centered Maintenance (RCM) Processes.

8. SAE JA 1012:2011. A Guide to the Reliability-Centered Maintenance (RCM) Standard.

9. IEC 60300-3-11:2009. Dependability Management — Part 3-11: Application guide — Reliability centered maintenance.

10. ГОСТ Р 27.606-2013. Надежность в технике. Управление надежностью. Техническое обслуживание, ориентированное на безотказность. М.: Стандартинформ, 2014. – 34 с.

11. ГОСТР 55.0.05-2016. Управление активами. Повышение безопасности и надежности активов. Требования. М.: Стандартинформ, 2016. – 10 с.

12. Антоненко И.Н., Беляков М.И. Об одной надежностной задаче и ее решении в информационной системе// Автоматизация в промышленности. – 2015. – №8. – С.18-21.

13. Иорш В.И., Крюков И.Э., Антоненко И.Н. Управление ремонтами, ориентированное на надежность//Промышленность и безопасность. – 2011. – №7. – C. 50-53.

14. Кац Б.А., Молчанов А.Ю. Управление производственными активами с помощью современных информационных технологий// Автоматизация в промышленности. – 2014. – №8. – C. 39-45.

15. Кац Б.А. Взаимодействие информационной системы ТОиР с другими АСУ предприятия// Автоматизация в промышленности. – 2013. – №8. – С. 43-46.

16. ГОСТ Р 51901.12-2007. Менеджмент риска. Метод анализа видов и последствий отказов. М.: Стандартинформ, 2008. – 35 с.

Автор - И.Н. Антоненко, НПП «СпецТек», г. Санкт-Петербург