Передача, распределение и накопление электроэнергии

Центр обработки данных: структура, функциональные особенности и возможные аварии

24 февраля 2021 г. в 11:09

Авариям в центрах обработки данных посвящена немалая часть новостных материалов, что лишний раз подчеркивает: ЦОД — это сложный объект, с точки зрения поддержания работоспособности. В этой статье, подготовленной компанией Eaton, перечислены типичные причины аварий в ЦОДах, знание которых помогает как предвидеть развитие аварийных ситуаций, так и внедрять регламентные процедуры по быстрому устранению аварий и их последствий.

Четыре кита

Работа любого дата-центра держится на «трех китах» — энергоснабжении, охлаждении, системах мониторинга и безопасности. В последнее время, с массовым переходом на облачные приложения, к числу критически важных систем добавился и четвертый — системы телекоммуникации ЦОДа. Ведь если будет потеряна связь дата-центра с провайдерами телекоммуникационных услуг, то для клиентов он станет полностью недоступен, даже если все серверы и системы хранения данных (СХД) находятся в полном порядке.

Разумеется, типичные причины аварий — это именно та прошедшая война, к которой готовятся «генералы» в лице отделов эксплуатации. А жизнь всё время подкидывает новые нестандартные аварийные кейсы, из которых порой с честью, но чаще с убытками выходят даже ЦОДы именитых брендов.

Уровень надёжности

Напомним, что с 1990-х годов для оценки уровня надёжности центра обработки данных используется система классификации Uptime Institute, включающая четыре категории надёжности (Tier I–IV). С его помощью также рассчитывается ожидаемый коэффициент доступности сервисов для внешних клиентов, что позволяет компаниям принимать решение о том, пользоваться ли услугами данного ЦОДа или нет.

Надёжность data-центра, оцениваемая по Tier, относится к любым инженерным системам и процедурам, поддерживающих работоспособность объекта — сюда входят, к примеру, насосы, которые подают топливо для резервных дизель-генераторных установок (ДГУ), объём топлива в цистернах и наличие договоров с нефтетрейдерами, обязывающих компании к бесперебойному подвозу топливной смеси на площадку.

В последние годы коммерческие data-центры в основном строят с уровнем надёжности Tier III, который, как считается, обладает наилучшим соотношением по параметру «надёжность/стоимость систем». В Tier III используется схема резервирования 2N — это когда все компоненты продублированы. Уровень доступности для Tier III составляет 99,982 % или, по-простому, «три девятки», а ежегодное время простоя не должно превышать 1,6 часа.

Схема энергоснабжения 2N или «всего по два»

ЦОД подключают к внешним источникам электроснабжения (подстанциям оператора электрораспределительных сетей) двумя независимыми фидерами 6/10 кВ одинаковой мощности, на территории дата-центра размещаются две понижающие подстанции, на которых высокое «магистральное» напряжение 6/10 кВ понижается до 380 В (400 В) и далее подаётся на два главных распределительных щита (ГРЩ) с системой защитной автоматики. После ГРЩ напряжение подается на две группы промышленных ИБП с функцией двойного преобразования. Примером таких ИБП является модель нового поколения Eaton 93PM G2 мощностью 30-500 кВA.

На случай перехода на питание от ИБП к ним подключается две взаимно резервируемые матрицы 12-вольтовых батарей. Заряда этих батарей хватает на период работы дата-центра под полной нагрузкой до момента запуска ДГУ (обычно порядка 7-10 минут). В последнее время на замену традиционным свинцово-кислотным батареям приходят инновационные источники питания, такие как суперконденсаторные модули (например, Eaton XLM). Они охватывают диапазон мощности от 8 до 7700 кВт, обеспечивают энергоснабжение ИБП на время до нескольких минут, не требуют технического обслуживания и изготовлены из экологически чистых материалов.

Eaton XLM

С каждой группы источников бесперебойного питания по двум группам шинопроводов электроэнергия подаётся на щиты гарантированного электропитания (ЩГП) и с них уже непосредственно в машинные залы к распределительным шкафам питания стоек (ЩС). В этих шкафах напряжение 380 В (400 В) разделяется на взаимно резервируемые шины 230 В для питания компьютерного и сетевого оборудования.

Основная причина сбоя схемы 2N

Почему же происходят аварии системы энергоснабжения, если всё так хорошо продумано? Практика показывает, что наиболее частая причина возникновения аварийных ситуаций в ЦОДах — это человеческий фактор. Точнее, несоблюдение регламентных процедур по обслуживанию оборудования: не вовремя почистили от пыли распределительные шкафы, не проверили температуру контактов тепловизором, долгое время не запускали ДГУ и т. д. Тогда даже какая-то простая поломка может привести к эскалации аварийной ситуации.

Последствия

Как правило, аварии систем электроснабжения достаточно быстро устраняются и не критичны для дальнейшей работы центра. Да, они чреваты потерей части данных, но бэкапы и репликация виртуальных машин в другие data-центры и здесь позволит выйти «сухим из воды». При этом обесточенные серверы и системы хранения в ЦОДах остаются работоспособны — после подачи электропитания и перезагрузки они продолжат функционировать в штатном режиме.

Система охлаждения

Климатические системы дата-центра более сложны в обслуживании в сравнении с электрооборудованием. Течи в многочисленных трубопроводах с жидким хладагентом, влияние погодных аномалий внешней среды, даже активное распространение тополиного пуха или песчаной взвеси в воздухе и прочие тому подобные причины могут привести к выходу из строя кондиционеров, чиллеров и других компонентов климатических систем ЦОДа.

Причины аварии

При превышении температуры в серверных залах выше нормы, начинаются отказы ИТ-оборудования. Если процесс принимает неуправляемый характер, помимо потери данных возможны выход из строя электронных компонентов серверов и систем хранения. На этом этапе дежурная смена, как правило, принимает решение обесточить все ИТ-системы объекта во избежание окончательного выхода серверов и СХД из строя и предотвращения пожара.

Меры профилактики

Предупреждение аварий климатических систем осуществляется за счёт соблюдения регламентного обслуживания кондиционеров, систем фрикулинга и вентиляции. Опытные эксплуатанты также держат на складе запасы хладагента, расходников и некоторых критически важных агрегатов, поскольку в условиях аварии не будет времени на заказ таких компонентов и материалов у поставщиков.

Аварии коммуникационного оборудования

Выход из строя магистральных сетевых коммутаторов или физическое повреждение кабелей, связывающих ЦОД с узлами обмена трафиком приводит к тому, что для внешнего мира центр становится недоступен. Даже если всё остальное оборудование в data-центре исправно, это приведет к убыткам клиентов, арендующих вычислительные мощности.

Выход из положения

Задача решается наличием на складе резервного коммутатора, организацией разветвленной структуры связности к внешним операторам связи, физической защитой коммуникационных кабелей и колодцев.

Катастрофические события

Пожар, затопление помещений или умышленное повреждение оборудования посторонними лицами — это катастрофические события, которые хотя и редки, но чреваты значительными убытками для владельцев ЦОДов и их клиентов.

Защита от пожара решается установкой систем мониторинга с видеонаблюдением, температурными датчиками, сенсорами задымления, установкой системы автоматического пожаротушения, регулярными обходами серверных залов и технических помещений дежурным персоналом, своевременным регламентным обслуживанием оборудования.

Защита от проникновения воды реализуется проверкой герметичности систем водоснабжения и канализации, уходом за гидроизоляцией крыши, своевременной её очистки от снежных масс и наледи. Для защиты от проникновения посторонних лиц организуется система видеонаблюдения и контроля доступа, а также прописывается регламент передвижения по помещениям ЦОД для посетителей. В крупных IT-структурах в России на объектах дежурит вооруженная охрана.

Заключение

Как видно из всего выше сказанного, своевременное обслуживание и ремонт оборудования — это основной способ предотвращения аварий в ЦОДах. Клиентам, арендующим вычислительные мощности для критически важных приложений, можно порекомендовать использовать репликацию виртуальных машин и данных между географически разнесенными объектами, а также чётко соблюдать золотое правило бэкапов «3-2-1», согласно которому компаниям рекомендуется хранить по три копии резервных данных, из которых две копии размещаются на разных устройствах одной площадки, а третья — на другой (чаще всего облачной) площадке.

Источник: Компания Eaton

👉 Подписывайтесь на Elec.ru. Мы есть в Телеграм, ВКонтакте и Одноклассниках

Информация о компании

«Eaton – мировой лидер в области управления энергией, объем продаж которой в 2018 году составил 21,6 млрд долларов США. Наши энергосберегающие решения и услуги помогают клиентам управлять электрической, гидравлической и механической энергией более надежными, рациональными, эффективными, безопасными и экологичными способами. Компания Eaton стремится повышать качество жизни и окружающей среды путем использования технологий и услуг в сфере управления энергией. Компания Eaton насчитывает около 99…
Читайте также
Новости по теме
Объявления по теме

ПРОДАМ: Сигнализатор напряжения стационарный “Пульс -В”

Декларация соответствия ТС N RU Д-RU.ГА02.В.04495 от 19.10.2016г. В связи с большим числом несчастных случаев в «Плане основных мероприятий по обеспечению производственной безопасности» ОАО «МРСК Центра и Приволжья» поставлена задача оснащения комплектных распределительных устройств, КТПН, КТП 6-110 кВ стационарными сигнализаторами напряжения (СНС). СНС «Пульс-В» предупреждают персонал о наличии напряжения на ВНУТРЕННИХ токоведущих частях электроустановок. Аналогичные задания сформулированы и в планах других МРСК.
Симахин Иван · ООО "ЭНЕРГИС-АВТОМАТИКА" · 24 января · Россия · Кировская обл
Сигнализатор напряжения стационарный “Пульс -В”

ПРОДАМ: Реле РКЗ-И. Защита электроустановок

Реле аналогично по функциональным и техническим характеристикам ранее разработанным реле типа РКЗ, РКЗМ-I, РКЗМ-II, но обладает наличием встроенных на лицевой панели реле индикаторов причины аварийного отключения, что позволяет в экстренных ситуациях оперативно определить причину аварии, не пользуясь пультом. Реле осуществляет контроль токов в трех фазах обслуживаемой электроустановки и при выявлении аварийных режимов отключает ее. Отключение, с одновременным отображением типа аварии соответствующим ему индикатором, происходит в следующих аварийных ситуациях: -при перегрузке по току недопустимой продолжительности; -при недогрузке по току; -при обрыве любой фазы; -при недопустимом дисбалансе токов. Реле изготавливаются пяти типономиналов: 25, 50, 250, 500 и 900, соответствующих пределу контролируемых токов в амперах.
Фролов Андрей · МежРегионОпт-Электро · 15 февраля · Россия · Красноярский край
Реле РКЗ-И. Защита электроустановок

ПРОДАМ: Реле контрольное

В случае, когда происходит аварийная ситуация и срабатывает автоматика защиты, необходимо в короткий срок определить причину и место повреждения, а также нужно устранить неисправность. Когда речь идет о небольшой сети электроснабжения, осуществить эти процедуры труда не составит, зачастую место и причина нарушения в электроснабжении выдает себя следами воздействия высоких температур (копоть, запах перегретой изоляции и т. д.). В сетях больших производственных площадок обнаружить дефект гораздо сложнее, особенно если это обрыв. В условиях больших протяженностей сетей электроснабжения и электропотребления необходим постоянный мониторинг состояния цепей электропитания с использованием контрольных реле. Эти устройства позволяют отслеживать целостность каждой фазы в цепях трехфазных сетей, а также контролировать уровень напряжения питания, диапазон напряжения и ряд других контрольных функций. Данные реле способны подавать сигнал на пульт управления по линиям связи. В результате оператор сможет быстро увидеть, на какой из контрольных точек произошло срабатывание реле и по какой причине. В случае, если причина, по которой устройство сработало, является критичной, параллельно подается сигнал на отключение данного оборудования от питания. Наша компания с 2005 года профессионально решает задачи на электротехническом рынке в области поставок низковольтного оборудования партнерам по всей России. Сегодня "Элснаб" является крупнейшим дистрибьютором и сервис-партнером чешского завода OEZ (Siemens AG) в России. Наши технические специалисты проводят обучающие семинары и презентации по всему оборудованию, осуществляют полную техническую поддержку и сервисное обслуживание. Электротехническое оборудование "Элснаб" приобретают крупнейшие предприятия и организации страны, работающие в различных отраслях хозяйства: электроэнергетике, атомной, лесной и химической промышленности, агропромышленном комплексе, машиностроении и судостроении, сферах связи и IT. Тщательно продуманная...
Отдел продаж · Элснаб · Вчера · Россия · г Москва
Элснаб, ООО

ПРОДАМ: Изолирующие крышки для силовых выводов

Критерий безопасности имеет первостепенное значение при проектировании и монтаже сетей электроснабжения. Один из способов достижения этой цели - недопущение прямого контакта человека и силовых линий. Поражение электрическим током может привести к серьезным последствиям для жизни и здоровья, к основным его признакам можно отнести наличие ожогов, шоковое состояние и нарушение сердечного ритма. Также, помимо неосторожных действий человека, возможен контакт с силовыми линиями различных животных. Любые живые организмы являются хорошими проводниками электрического тока, и в результате прямого контакта происходит короткое замыкание или существенный ток утечки. Это приводит к нарушению в работе электрооборудования вплоть до возгорания и выхода его из строя. Наша компания с 2005 года профессионально решает задачи на электротехническом рынке в области поставок низковольтного оборудования партнерам по всей России. Сегодня "Элснаб" является крупнейшим дистрибьютором и сервис-партнером чешского завода OEZ (Siemens AG) в России. Наши технические специалисты проводят обучающие семинары и презентации по всему оборудованию, осуществляют полную техническую поддержку и сервисное обслуживание. Электротехническое оборудование "Элснаб" приобретают крупнейшие предприятия и организации страны, работающие в различных отраслях хозяйства: электроэнергетике, атомной, лесной и химической промышленности, агропромышленном комплексе, машиностроении и судостроении, сферах связи и IT. Тщательно продуманная логистика, высокий сервис, надежные поставки, оперативная обработка клиентских запросов - все эти исключительные качества «Элснаб» помогают нашим партнерам реализовать крупные проекты и решать важные задачи в области электротехники. Благодаря собственному складу и сотрудничеству с ведущими транспортными компаниями, мы обеспечиваем быструю отгрузку и высокую скорость поставок в любой регион страны.
Отдел продаж · Элснаб · Вчера · Россия · г Москва
Изолирующие крышки для силовых выводов

ПРОДАМ: Реле безопасности Duelco.

Компания «ГИДРОЭРА» предлагает полную линейку малых реле Duelco для аварийной остановки и контроля аварийного отключения оборудования и других мер безопасности, данные реле могут также использоваться в качестве недорогого модуля расширения, когда необходимы дополнительные выходные контакты. К ним относятся следующие модели: различные версии NST-3.2, различные версии NST-2004, NST-2007F 230V AC art. 42080003, NST-2008 art. 42080010, NST-2009D 24V AC/DC art. 42080021, различные версии модуля расширения EU-2001.
Дячок Любовь · ООО «ГИДРОЭРА» · 19 февраля · Россия · Московская обл
Реле безопасности Duelco.
ООО «Копос Электро» — представительство чешской корпорации KOPOS KOLIN а.s. в Российской Федерации. Основным видом производства компании является электромонтажные изделия для кабельных систем. Количество изделий в серийных линейках продукции бренда KOPOS превышает 8 тысяч наименований.