Как это работает: дата-центр «Берзарина»

Наши клиенты (даже те из них, кто имеет доступ в серверную), не могут видеть все, что происходит в дата-центре. Многие из них лишь приблизительно знают, как именно поддерживается бесперебойная работа в режиме 24/7/365. Сегодня мы расскажем, как это делается в нашем дата-центре «Берзарина», расположенном в Москве.

Отказоустойчивость в наших дата-центрах обеспечивается дополнительным оборудованием, дублирующим функции жизненно важных устройств, обеспечивающих два необходимых для работы ресурса: подача электроэнергии и охлаждение для размещенного оборудования.

Охлаждение

Начнем рассказ с систем охлаждения и кондиционирования воздуха. В дата-центре «Берзарина» используются прецизионные (от англ. precision  — точность) кондиционеры UNIFLAIR, использующие для работы традиционную схему функционирования «чиллер-фанкойл» и обеспечивающие перманентное охлаждение серверного помещения.

pr-485-1-5

Это система кондиционирования воздуха, в которой теплоносителем между центральной холодильной машиной (чиллером) и узлами охлаждения воздуха (фанкойлами) служит охлаждённая жидкость (хладагент), циркулирующая под относительно низким давлением.


Чиллер

SONY DSC
Фанкойл

Кроме чиллеров и фанкойлов, в состав системы входят насосная станция (гидромодуль), подсистема автоматического регулирования и трубная разводка между ними. Наибольшая нагрузка приходится на летнее время года, когда разница между температурой окружающей среды и температурой внутри серверной максимальна. В остальные времена года система задействует технологию «фрикулинга» (от англ. free cooling), которая использует низкую температуру окружающей среды для естественного охлаждения с минимальной нагрузкой на чиллеры. Подобные технологии активно используют крупнейшие корпорации в своих центрах обработки данных — например, компания Microsoft максимально использует их в своем ЦОД, расположенном в прохладном климате Ирландии (город Дублин). Очень интересный фотоотчет можно посмотреть по ссылке.

Насосная станция является важным компонентом системы. Здесь круглосуточно работают насосы, которые непрерывно подают потоки хладагента от чиллеров к фанкойлам.

Резервирование подразумевает, что для работы системы нужно, чтобы работало как минимум два насоса. У нас установлено три насоса, которые работают посменно. Каждые 10 часов работающий насос выключается, и вместо него запускается простаивающий насос.

Это обеспечивает равномерное время эксплуатации и в случае отказа одного из насосов это никак не повлияет на работу системы. Системные инженеры наших дата-центров во время ежедневных обходов обязательно проверяют состояние насосов и контролируют показания их работы. Для контроля за работоспособностью чиллеров у нас выведена отдельная аппаратная панель управления системой охлаждения, за которой ведется круглосуточное наблюдение.

Мы используем классическую конфигурацию расположения серверных шкафов, образующую две климатические зоны внутри серверного помещения. Два ряда стоек расположены передней частью друг к другу. Холодный воздух поступает из-под фальшпола, и серверы забирают его оттуда. Эта климатическая зона называется «холодным коридором». Температура в этой зоне составляет +20 ± 2°С.

Untitled

Воздух, нагревшийся в процессе работы серверов, выбрасывается в пространство сзади стойки, где находится так называемый «горячий» коридор. В нем находятся фанкойлы, забирающие горячий воздух для охлаждения.

Оперативная информация о температуре в «горячем» и «холодном» коридорах поступает круглосуточно дежурному системному инженеру с интервалом обновления в 30 секунд.

Если температура выходит за допустимые границы, раздается аварийный сигнал. Во время обходов инженеры измеряют температуру оборудования бесконтактными лазерными термометрами. Если мы обнаруживаем, что клиентское оборудование перегревается, мы сразу же сообщаем об этом клиенту, указывая зафиксированную температуру.

Электропитание

Непрерывная подача электроэнергии к стойкам является одной из приоритетных задач. К нашему основному электрощиту подходят три независимых ввода: два с разных трасформаторных подстанций и один — с дизель-генераторных установок.

Оба ввода работают синхронно: нагрузка по ним распределяется равномерно. В случае прекращения подачи электроэнергии с одного из них, АВР (автомат ввода резерва) мгновенно переводит нагрузку на второй луч, исключая простои.

В случае внезапного прекращения подачи электроэнергии (например, в результате серьезной аварии городской электросети), автоматически приводятся в действие наши кластеры ИБП (источников бесперебойного питания) от компании General Electric.

В этот же момент спустя 3 секунды после потери электропитания автоматически отдается команда на запуск дизель-генераторной установки (ДГУ). Через 2 минуты она выходит на рабочий режим и на него переключается вся нагрузка. Мы используем высокопроизводительные ДГУ Gesan с двигателями Volvo Penta. В режиме пиковой нагрузки они могут выдавать до 504 кВт мощности, поэтому дата-центр может без остановок работать ровно столько, сколько нужно: стандартного запаса топлива хватает на 10 часов, а в случае необходимости всегда можно произвести дозаправку.

Мы каждый месяц осуществляем тестовые запуски ДГУ с проверкой уровней топлива, масла и антифриза. Периодически проводятся испытания, в которых имитируется полное прекращение подачи электроэнергии и происходит автоматический запуск ДГУ с последующим переключением на него нагрузки. Зимой дизельные двигатели могут запускаться хуже, чем в летнее время, поэтому они оснащены предпусковыми подогревателями и рассчитаны на гарантированный запуск даже при температуре −30 °C.

Пожаротушение

При работе с любой техникой, даже самой надежной, всегда имеется риск короткого замыкания и возгорания — например, при выходе из строя каких-либо компонентов. Именно поэтому все дата-центры оснащаются автоматической системой пожаротушения. Она рассчитывается таким образом, чтобы можно было гарантированно ликвидировать очаг пожара, не повреждая при этом оборудования.
У нас для этого используется система газового пожаротушения.

Принцип ее работы основан на химическом замедлении реакции горения. Система подает газовый огнетушащий состав (Хладон-125) в помещение. Попадая в зону горения, этот газ интенсивно распадается с образованием свободных радикалов, которые вступают в реакцию с первичными продуктами горения. При этом происходит снижение скорости горения до полного затухания.

Автоматическая установка пожарной сигнализации оперативно обнаруживает возгорание. Подача огнетушащего состава осуществляется с задержкой, чтобы успеть эвакуировать людей из помещения.

В нашем случае система дает 30 секунд на эвакуацию, после чего происходит срабатывание системы. Предусмотрена и защита от случайного срабатывания, система активирует пожаротушение, только если сработало минимум два пожарных извещателя (датчика).

Эвакуировать людей необходимо: газ вытесняет большую часть кислорода из помещения, и видимость при этом сокращается до нескольких десятков сантиметров. Наши инженеры обучены действиям в случае срабатывания системы и знают, как действовать в подобной ситуации.

Мониторинг и реагирование

Все оборудование всегда находится под круглосуточным наблюдением, и системные инженеры всегда могут оперативно узнать статус каждого устройства. Благодаря этому обеспечивается моментальное реагирование на все сбои и аварийные ситуации.

Несколько раз в день проводятся обходы всех помещений дата-центра. Во время этих обходов мы выявляем все возможные недочеты и информируем о них всех ответственных. Во многом благодаря этому мы можем заявлять о том, что наши дата-центры готовы к любым неожиданностям и способны работать автономно на протяжении любого количества времени.

Заключение

Обеспечение бесперебойной работы дата-центра — весьма нетривиальная задача. Для ее успешного решения все «узкие» места, подверженные сбоям, обязательно резервируются дополнительным оборудованием. Регулярные обходы и мониторинг позволяют вовремя диагностировать и предупреждать вероятные причины сбоев. Своевременная замена старого оборудования на новое, разработка более совершенных систем мониторинга и гибкий подход к осуществлению контроля над ним — вот наша задача, которая успешно решается каждый день, гарантируя нашим клиентам уверенность в том, что их данные и проекты будут надежно защищены и доступны в режиме 24/7/365.