Рубрикатор

Передача, распределение и накопление электроэнергии

Центр обработки данных: структура, функциональные особенности и возможные аварии

24 февраля 2021 г. в 11:09

Авариям в центрах обработки данных посвящена немалая часть новостных материалов, что лишний раз подчеркивает: ЦОД — это сложный объект, с точки зрения поддержания работоспособности. В этой статье, подготовленной компанией Eaton, перечислены типичные причины аварий в ЦОДах, знание которых помогает как предвидеть развитие аварийных ситуаций, так и внедрять регламентные процедуры по быстрому устранению аварий и их последствий.

Четыре кита

Работа любого дата-центра держится на «трех китах» — энергоснабжении, охлаждении, системах мониторинга и безопасности. В последнее время, с массовым переходом на облачные приложения, к числу критически важных систем добавился и четвертый — системы телекоммуникации ЦОДа. Ведь если будет потеряна связь дата-центра с провайдерами телекоммуникационных услуг, то для клиентов он станет полностью недоступен, даже если все серверы и системы хранения данных (СХД) находятся в полном порядке.

Разумеется, типичные причины аварий — это именно та прошедшая война, к которой готовятся «генералы» в лице отделов эксплуатации. А жизнь всё время подкидывает новые нестандартные аварийные кейсы, из которых порой с честью, но чаще с убытками выходят даже ЦОДы именитых брендов.

Уровень надёжности

Напомним, что с 1990-х годов для оценки уровня надёжности центра обработки данных используется система классификации Uptime Institute, включающая четыре категории надёжности (Tier I–IV). С его помощью также рассчитывается ожидаемый коэффициент доступности сервисов для внешних клиентов, что позволяет компаниям принимать решение о том, пользоваться ли услугами данного ЦОДа или нет.

Надёжность data-центра, оцениваемая по Tier, относится к любым инженерным системам и процедурам, поддерживающих работоспособность объекта — сюда входят, к примеру, насосы, которые подают топливо для резервных дизель-генераторных установок (ДГУ), объём топлива в цистернах и наличие договоров с нефтетрейдерами, обязывающих компании к бесперебойному подвозу топливной смеси на площадку.

В последние годы коммерческие data-центры в основном строят с уровнем надёжности Tier III, который, как считается, обладает наилучшим соотношением по параметру «надёжность/стоимость систем». В Tier III используется схема резервирования 2N — это когда все компоненты продублированы. Уровень доступности для Tier III составляет 99,982 % или, по-простому, «три девятки», а ежегодное время простоя не должно превышать 1,6 часа.

Схема энергоснабжения 2N или «всего по два»

ЦОД подключают к внешним источникам электроснабжения (подстанциям оператора электрораспределительных сетей) двумя независимыми фидерами 6/10 кВ одинаковой мощности, на территории дата-центра размещаются две понижающие подстанции, на которых высокое «магистральное» напряжение 6/10 кВ понижается до 380 В (400 В) и далее подаётся на два главных распределительных щита (ГРЩ) с системой защитной автоматики. После ГРЩ напряжение подается на две группы промышленных ИБП с функцией двойного преобразования. Примером таких ИБП является модель нового поколения Eaton 93PM G2 мощностью 30-500 кВA.

На случай перехода на питание от ИБП к ним подключается две взаимно резервируемые матрицы 12-вольтовых батарей. Заряда этих батарей хватает на период работы дата-центра под полной нагрузкой до момента запуска ДГУ (обычно порядка 7-10 минут). В последнее время на замену традиционным свинцово-кислотным батареям приходят инновационные источники питания, такие как суперконденсаторные модули (например, Eaton XLM). Они охватывают диапазон мощности от 8 до 7700 кВт, обеспечивают энергоснабжение ИБП на время до нескольких минут, не требуют технического обслуживания и изготовлены из экологически чистых материалов.

С каждой группы источников бесперебойного питания по двум группам шинопроводов электроэнергия подаётся на щиты гарантированного электропитания (ЩГП) и с них уже непосредственно в машинные залы к распределительным шкафам питания стоек (ЩС). В этих шкафах напряжение 380 В (400 В) разделяется на взаимно резервируемые шины 230 В для питания компьютерного и сетевого оборудования.

Основная причина сбоя схемы 2N

Почему же происходят аварии системы энергоснабжения, если всё так хорошо продумано? Практика показывает, что наиболее частая причина возникновения аварийных ситуаций в ЦОДах — это человеческий фактор. Точнее, несоблюдение регламентных процедур по обслуживанию оборудования: не вовремя почистили от пыли распределительные шкафы, не проверили температуру контактов тепловизором, долгое время не запускали ДГУ и т. д. Тогда даже какая-то простая поломка может привести к эскалации аварийной ситуации.

Последствия

Как правило, аварии систем электроснабжения достаточно быстро устраняются и не критичны для дальнейшей работы центра. Да, они чреваты потерей части данных, но бэкапы и репликация виртуальных машин в другие data-центры и здесь позволит выйти «сухим из воды». При этом обесточенные серверы и системы хранения в ЦОДах остаются работоспособны — после подачи электропитания и перезагрузки они продолжат функционировать в штатном режиме.

Система охлаждения

Климатические системы дата-центра более сложны в обслуживании в сравнении с электрооборудованием. Течи в многочисленных трубопроводах с жидким хладагентом, влияние погодных аномалий внешней среды, даже активное распространение тополиного пуха или песчаной взвеси в воздухе и прочие тому подобные причины могут привести к выходу из строя кондиционеров, чиллеров и других компонентов климатических систем ЦОДа.

Причины аварии

При превышении температуры в серверных залах выше нормы, начинаются отказы ИТ-оборудования. Если процесс принимает неуправляемый характер, помимо потери данных возможны выход из строя электронных компонентов серверов и систем хранения. На этом этапе дежурная смена, как правило, принимает решение обесточить все ИТ-системы объекта во избежание окончательного выхода серверов и СХД из строя и предотвращения пожара.

Меры профилактики

Предупреждение аварий климатических систем осуществляется за счёт соблюдения регламентного обслуживания кондиционеров, систем фрикулинга и вентиляции. Опытные эксплуатанты также держат на складе запасы хладагента, расходников и некоторых критически важных агрегатов, поскольку в условиях аварии не будет времени на заказ таких компонентов и материалов у поставщиков.

Аварии коммуникационного оборудования

Выход из строя магистральных сетевых коммутаторов или физическое повреждение кабелей, связывающих ЦОД с узлами обмена трафиком приводит к тому, что для внешнего мира центр становится недоступен. Даже если всё остальное оборудование в data-центре исправно, это приведет к убыткам клиентов, арендующих вычислительные мощности.

Выход из положения

Задача решается наличием на складе резервного коммутатора, организацией разветвленной структуры связности к внешним операторам связи, физической защитой коммуникационных кабелей и колодцев.

Катастрофические события

Пожар, затопление помещений или умышленное повреждение оборудования посторонними лицами — это катастрофические события, которые хотя и редки, но чреваты значительными убытками для владельцев ЦОДов и их клиентов.

Защита от пожара решается установкой систем мониторинга с видеонаблюдением, температурными датчиками, сенсорами задымления, установкой системы автоматического пожаротушения, регулярными обходами серверных залов и технических помещений дежурным персоналом, своевременным регламентным обслуживанием оборудования.

Защита от проникновения воды реализуется проверкой герметичности систем водоснабжения и канализации, уходом за гидроизоляцией крыши, своевременной её очистки от снежных масс и наледи. Для защиты от проникновения посторонних лиц организуется система видеонаблюдения и контроля доступа, а также прописывается регламент передвижения по помещениям ЦОД для посетителей. В крупных IT-структурах в России на объектах дежурит вооруженная охрана.

Заключение

Как видно из всего выше сказанного, своевременное обслуживание и ремонт оборудования — это основной способ предотвращения аварий в ЦОДах. Клиентам, арендующим вычислительные мощности для критически важных приложений, можно порекомендовать использовать репликацию виртуальных машин и данных между географически разнесенными объектами, а также чётко соблюдать золотое правило бэкапов «3-2-1», согласно которому компаниям рекомендуется хранить по три копии резервных данных, из которых две копии размещаются на разных устройствах одной площадки, а третья — на другой (чаще всего облачной) площадке.

Источник: Компания Eaton

👉 Подписывайтесь на Elec.ru. Мы есть в Телеграм, ВКонтакте и Одноклассниках

222

Пожаловаться

Информация о компании

Итон, ООО

«Eaton – мировой лидер в области управления энергией, объем продаж которой в 2018 году составил 21,6 млрд долларов США. Наши энергосберегающие решения и услуги помогают клиентам управлять электрической, гидравлической и механической энергией более надежными, рациональными, эффективными, безопасными и экологичными способами. Компания Eaton стремится повышать качество жизни и окружающей среды путем использования технологий и услуг в сфере управления энергией. Компания Eaton насчитывает около 99…

Контакты и адреса · Новости · Публикации · Видео

ПРОДАМ: Реле РКЗ-И. Защита электроустановок

Реле аналогично по функциональным и техническим характеристикам ранее разработанным реле типа РКЗ, РКЗМ-I, РКЗМ-II, но обладает наличием встроенных на лицевой панели реле индикаторов причины аварийного отключения, что позволяет в экстренных ситуациях оперативно определить причину аварии, не пользуясь пультом. Реле осуществляет контроль токов в трех фазах обслуживаемой электроустановки и при выявлении аварийных режимов отключает ее. Отключение, с одновременным отображением типа аварии соответствующим ему индикатором, происходит в следующих аварийных ситуациях: -при перегрузке по току недопустимой продолжительности; -при недогрузке по току; -при обрыве любой фазы; -при недопустимом дисбалансе токов. Реле изготавливаются пяти типономиналов: 25, 50, 250, 500 и 900, соответствующих пределу контролируемых токов в амперах.

Фролов Андрей · МежРегионОпт-Электро · 15 апреля · Россия · Красноярский край

ПРОДАМ: Реле контрольное

В случае, когда происходит аварийная ситуация и срабатывает автоматика защиты, необходимо в короткий срок определить причину и место повреждения, а также нужно устранить неисправность. Когда речь идет о небольшой сети электроснабжения, осуществить эти процедуры труда не составит, зачастую место и причина нарушения в электроснабжении выдает себя следами воздействия высоких температур (копоть, запах перегретой изоляции и т. д.). В сетях больших производственных площадок обнаружить дефект гораздо сложнее, особенно если это обрыв. В условиях больших протяженностей сетей электроснабжения и электропотребления необходим постоянный мониторинг состояния цепей электропитания с использованием контрольных реле. Эти устройства позволяют отслеживать целостность каждой фазы в цепях трехфазных сетей, а также контролировать уровень напряжения питания, диапазон напряжения и ряд других контрольных функций. Данные реле способны подавать сигнал на пульт управления по линиям связи. В результате оператор сможет быстро увидеть, на какой из контрольных точек произошло срабатывание реле и по какой причине. В случае, если причина, по которой устройство сработало, является критичной, параллельно подается сигнал на отключение данного оборудования от питания. Наша компания с 2005 года профессионально решает задачи на электротехническом рынке в области поставок низковольтного оборудования партнерам по всей России. Сегодня "Элснаб" является крупнейшим дистрибьютором и сервис-партнером чешского завода OEZ (Siemens AG) в России. Наши технические специалисты проводят обучающие семинары и презентации по всему оборудованию, осуществляют полную техническую поддержку и сервисное обслуживание. Электротехническое оборудование "Элснаб" приобретают крупнейшие предприятия и организации страны, работающие в различных отраслях хозяйства: электроэнергетике, атомной, лесной и химической промышленности, агропромышленном комплексе, машиностроении и судостроении, сферах связи и IT. Тщательно продуманная...

Отдел продаж · Элснаб · Вчера · Россия · г Москва

ПРОДАМ: Центры обрабатывающие: фрезерные; токарные

Центр обрабатывающий HAAS VF1DHE Центр обрабатывающий HAAS EC1600 Центр обрабатывающий САМ5-850ТМ1 Центр обрабатывающий токарный CKX6432 Центр обрабатывающий токарный MAZAK QUICK TURN 20N Центр обрабатывающий токарный JOHNFORD SL40 Центр обрабатывающий токарный вертикальный SCHERER VDZ120 FEINBAU Центр обрабатывающий токарный GL30M Perform Центр обрабатывающий ИР320ПМФ4 Центр обрабатывающий ИР500ПМФ4 Центр обрабатывающий ИС800ПМФ4 Центр обрабатывающий ИР800ПМФ4 Центр обрабатывающий ИР1600МФ4 с ЧПУ FMS3200 Центр обрабатывающий C500/04 CNC HECKERT Центр обрабатывающий МС032 Центр обрабатывающий M450LF RAIS Центр обрабатывающий CW800 HECKERT Центр обрабатывающий CW1000 HECKERT Центр обрабатывающий фрезерный HAAS EC1600 Центр обрабатывающий фрезерный HAAS TM-1HE Центр обрабатывающий фрезерный МА655 Центр обрабатывающий горизонтально-фрезерный MAHO MC5 Центр обрабатывающий фрезерный DECKEL-MAHO DMC103 V Центр обрабатывающий фрезерный DECKEL-MAHO DMC635V Центр обрабатывающий фрезерный DECKEL-MAHO DMU50 Центр обрабатывающий фрезерный VDL500 Центр обрабатывающий фрезерный VTC300 CII MAZAK (год 2007) Центр обрабатывающий фрезерный DMC103V Центр обрабатывающий фрезерный VMX64t HUNCO Центр обрабатывающий фрезерный Bridgeport Центр обрабатывающий фрезерный CHIRON FZ33 Центр обрабатывающий фрезерный CHIRON DZ16 Центр обрабатывающий фрезерный ФП37 с ЧПУ FMS3000 Центр токарно-давильный CNCSXY600HD PROSPER

Крупин Александр · ООО Uralstanko · Сегодня · Россия · Пермский край

ПРОДАМ: Аварийное освещение: светильники, БАПы, блоки автономного питания

Аварийное освещение предназначено для использования при нарушении питания рабочего освещения. В светильниках аварийного типа имеется наличие автономного источника электропитания, функционирующего при пожаре, аварии и др. чрезвычайных ситуаций. Так же имеется возможность включения при срабатывании сигнализации или вручную. Эвакуационное освещение обеспечивает безопасный выход людей из помещения при возникновении чрезвычайной ситуации. В разделе представлены светильники аварийного освещения производителей России. Предоставляется гарантия от 3 до 5 лет. Поможем подобрать светильники под ваши потребности

Рыбакова Алина · ТЕХСВЕТПРОМ · 22 апреля · Россия · Челябинская обл

Аварийное освещение: светильники, БАПы, блоки автономного питания

ПРОДАМ: Комплексные системы безопасности ARTLIGHT

Комплексная система безопасности (КСБ) объекта обычно имеет весьма сложную конфигурацию, содержит значительное количество устройств, число которых может достигать нескольких сотен, и может быть подразделена на несколько составляющих: — система видеонаблюдения (ВН), позволяет визуально наблюдать и фиксировать при помощи видеокамер события, происходящие в наиболее важных местах объекта, а также их хранить и анализировать события. — система охранной сигнализации (ОС), предназначенная для выработки тревожных извещений по фактам присутствия на контролируемых территориях посторонних лиц; — система пожарной сигнализации (ПС), осуществляющая контроль пожарной ситуации на объекте, включающая в себя аппаратуру пожаротушения; — системы контроля и управления доступом (СКУД), решает задачи контроля доступа на объект, позволяет решать задачи по учету рабочего времени, определению местоположения человека на объекте и т. д. Компания ARTLIGHT сегодня — результат усердного труда всех причастных к её развитию на протяжении более чем 22-летней истории. В настоящий момент в состав компании входят два торговых офиса в Москве и Санкт-Петербурге, производственная линия и склад в Колпино (Санкт-Петербург), а также обширный пул партнеров по всей России и в странах СНГ

Отдел продаж в Москве · Компания Артлайт · 22 апреля · Россия · г Москва

Комплексные системы безопасности ARTLIGHT