Дата-центры: стандартизация и сертификация

Клиенту, который собирается воспользоваться услугами дата-центра, всегда нужна определенная гарантия качества. Он должен быть уверенным в том, что его оборудование будет работать без сбоев, а хранимая на нем информация будет доступна даже в случае сбоев и отказов оборудования (или доступ к проекту будет восстановлен в течение конкретного срока).

Признанной гарантией качества в случае с дата-центрами является сертификация на соответствие требованиям стандартов. Интерес к вопросам стандартизации в последние несколько лет существенно возрос, но подробных публикаций на русском языке не так уж много. Два с половиной года назад выходил тематический номер журнала «ЦОДы РФ», но полных текстов статей в открытом доступе нет.

В этой статье мы хотели бы рассказать об основных нормативно-технических документах, на основании которых осуществляется сертификация дата-центров.

Сертификаты Uptime Institute

Самой известной организацией, занимающейся сертификаций дата-центров, является, конечно же, Uptime Institute. Это группа компаний, специализирующихся на обучении, консалтинге и сертификации в области проектирования, строительства и эксплуатации дата-центров. Она была основана Кеннеттом Г. Бриллом в 1993 году. В 2009 году Uptime Institute был куплен компанией 451 group и получил статус её независимого подразделения. Головной офис организации находится в Нью-Йорке. Региональные подразделения Uptime Institute имеются в Бразилии, России, Мексике, Великобритании, Коста-Рике, ОАЭ, а также на Тайване.

Процедура сертификации от Uptime Institute подразумевает присвоение дата-центру одного из уровней надёжности — Tier. Система уровней Tier впервые была описана в середине 1990-х годов и вскоре получила широкое распространение. Уровень присваивается по результатом оценки отказоустойчивости и защищенности от возможных сбоев.

Этапы сертификации Tier

Получение сертификата Tier представляет собой сложную и многоступенчатую процедуру.
Сертификации дата-центров начинается еще на стадии их проектирования: вся проектная документация отправляется в Uptime Institute и проходит процедуру, которая называется TCDD (Tier Certification of Design Documents — сертификация проектных и конструкторских документов).

Экспертизу проходят все документы: это нужно, чтобы убедиться, что все подсистемы будущего дата-центра смогут справиться с возлагаемыми задачами. Документации должна содержать ответы на 19 вопросов, затрагивающих все основные инженерные системы. В ответах нужно представить описания всех инженерных систем, топологию расположения информационных и инженерных сетей, режимов работы оборудования.

Для сертификации на уровень Tier 4 требуется также представить алгоритм автоматизации управления инженерными системами. Существующие стандарты предполагают, что в дата-центрах этого уровня локализация неисправностей и переключение на резерв должны осуществляться полностью автоматически, без участия человека.

Uptime Institute анализирует присланные документы, после чего проводит с командой дата-центра телеконференцию, в ходе которой обсуждаются обнаруженные недостатки и возможные пути их исправления.

После устранения всех недочётов проект получает сертификат соответствия, действительный в течение 2-х лет со дня выдачи.

Следующий этап сертификации — это TCCF (Tier Certification of Constructed Facility, сертификация построенного сооружения). Представители Uptime Institute посещают уже построенный дата-центр и проверяют, как был реализован проект, отслеживая и документируя все недостатки. Особое внимание уделяется анализу расхождений между представленным ранее проектом и тем, как всё реализовано на практике.
После того, как владелец дата-центра исправит все обнаруженные недочеты, Uptime Institute выдает сертификат соответствия одному из четырех описанных выше уровней.

Uptime Institute обращает внимание не только на формальные критерии соответствия стандартом, но и на то, как осуществляется управление дата-центром и как обеспечивается уровень предоставляемых услуг.

Компании, имеющие собственные дата-центры, но при этом по тем или иным причинам не желающие проходит сертификацию на соответствие уровню Tier, могут получить отметку соответствия управленческим стандартам(Management and Operation Stamp of Approval).

Уровни Tier

По результатам оценки дата-центр получает сертификат соответствия одному из уровней Tier. Всего принято выделять 4 уровня:

  • Tier 1 подразумевает, что дата-центр обладает базовой функциональностью для поддержания IT-инфраструктуры: имеется система бесперебойного питания, гарантирующая защиту от скачков напряжения, а также система охлаждения и генератор, обеспечивающий возможность работы при отключении электроэнергии. Система резервирования при этом отсутствует: выход из строя одного из компонентов приведет к простою всего дата-центра;
  • Tier 2 предполагает наличие определенного уровня резервирования. Дата-центр этого уровня может не прекращать работу в случае выхода оборудования из строя. Это возможно благодаря наличию дополнительных каналов электропитания и охлаждения. Проведение ремонтных работ, однако, невозможно без остановки дата-центра. Используемая схема резервирования называется N+1 (к используемым N основным системам добавляется одна резервная);
  • Уровень Tier 3 подразумевает более высокий уровень резервирования: работы по техническому обслуживанию или замене вышедших из строя компонентов могут производиться без нарушения нормального функционирования дата-центра. Все инженерные системы многократно зарезервированы: имеется множество каналов электропитания и охлаждения, однако постоянно активным является только один из них. Такая схема резервирования называется 2N (все основные системы продублированы, что исключает простои);
  • Tier 4 — наивысший уровень резервирования. Все инженерные системы дата-центров этого уровня резервируются по схеме 2 (N+1): дублируются как основная, так и дополнительная системы.

Для каждого из уровней Tier предъявляются следующие требования к уровню доступности услуг:

  • Tier 1 — 99,671%;
  • Tier 2 — 99,741%;
  • Tier 3 — 99,982%;
  • Tier 4 — 99,995%.

На первый взгляд разница между этими цифрами невелика, но в критической ситуации она может быть очень и очень ощутимой. Чем выше уровень доступности услуг, тем ниже допустимый уровень простоя сервисов (даунтайма). Для каждого из уровней Tier допустимый даунтайм составляет:

  • для Tier 1 — 1729 минут или примерно 29 часов в год;
  • для Tier 2 — 1361 минута или 23 часа в год;
  • для Tier 3 — 95 минут в год;
  • для Tier 4 — всего 26 минут в год.

По данным на 2013 год 187 дата-центров в мире (из них 24 — в России) имели сертификат Tier (см. карту здесь); при этом для большинства из них было подтверждено соответствие уровню Tier 3. Процедура сертификации обходится компаниям очень дорого: она стоит в среднем от 100 000 до 300 000 долларов. Несмотря на достаточно высокую стоимость, всё больше дата-центров во всём мире (в том числе и в России) стремятся получить сертификат, и это вполне объяснимо. Во-первых, наличие сертификата является знаком качества для потенциальных инвесторов и клиентов. Во-вторых, привлечение консультантов из Uptime Institute помогает избежать ошибок и оптимизировать расходы.

Система уровней Tier и другие стандарты

Несмотря на то, что сертификация Tier получает всё большее распространение в мире, она не является единственным стандартом для дата-центров.
На карте (см. ссылку выше) видно, что в странах Западной Европы дата-центров, имеющих сертификацию Tier, значительно меньше, чем, например, в странах Южной Америки и Азии.

Это вполне объяснимо: в европейских странах при проектировании и строительстве дата-центров огромную роль играют и национальные стандарты. Например, в Германии сертификацией дата-центров занимается организация TÜV Süd.

В США большая часть ЦОД сертифицированы по стандарту TIA-942 (он опубликован и на русском языке, например, здесь), разработанному в 2005 году Американским институтом стандартов (ANSI).

Тема различий между стандартами TIA-942 и стандартами Uptime Institute уже поднималась на Хабре. В стандарте TIA более подробно расписаны инженерно-технические требования к инфраструктуре дата-центров; имеется в нём и своего рода аналог системы уровней Tier. В сравнении с ним стандарт от Uptime Institute выглядит куда более гибким.

Отличие стандартов Uptime Institute от TIA-942 заключается также в том, что в них излагаются требования не только технического, но и организационно-управленческого характера. В 2010 году были опубликованы рекомендации Tier Standard: Operational Sustainability. Надёжность и самодостаточность складываются из следующих составляющих:

  • надёжность места (оценивается по множеству параметров: от транспортной доступности до степени риска природных и техногенных катастроф);
  • надёжность здания (соответствие техническим требованиям, устойчивость к природным и техногенным воздействиям и прочее);
  • соответствие назначению (использование надёжных и проверенных технологий, наличие систем резервирования и прочее);
  • отдача от капиталовложений;
  • управление и функционирование (особенности организации работы, квалификация персонала и прочее).

Кроме того, в нормативных документах Uptime Institute есть дополнительные рейтинги — золотой, серебряный и бронзовый, которые взаимосвязаны с уровнями Tier. Рейтинги присваиваются по результатам оценки деятельности по администрированию и эксплуатации дата-центра.

При всех описанных преимуществах у системы уровней Tier есть один минус: процедура сертификации сопряжена с множеством бюрократических процедур. Именно по этой причине на карте по ссылке выше отмечено не так много дата-центров, полностью эту процедуру прошедших. В случае со стандартом TIA-942 всё гораздо проще, поэтому и дата-центров, сертифицированных по этому стандарту, намного больше.

Следует также упомянуть ещё один известный и достаточно распространённый стандарт — BICSI 002 2010, разработанный Международной консультативной службой строительной отрасли (Building Industry Consulting Service International) в 2010 году. По содержанию он во многом близок к TIA-942. В нём гораздо более детально по сравнению с другими стандартами расписаны технические требования, но при этом нет никакой системы рейтингов и уровней (хотя в одном из разделов перечисляются уровни доступности системы электроснабжения).

В конце 2015 года вышла обновленная и дополненная версия этого стандарта — ANSI/BICSI 002-2014.

Проблема экстренного отключения нагрузки

Наличие возможности экстренного отключения нагрузки (англ. Emergency Power-Off, сокращённо EPO) является одной из наиболее обсуждаемых проблем, связанных с проектированием и строительством дата-центрах. В разных стандартах она трактуется по-разному.

Согласно стандартам Uptime Institute, возможность экстренного отключения питания в дата-центре нужна лишь в случаях, когда это предписано в местных законодательных актах. Как отмечено в документах Uptime Institute, экстренное отключение питания нередко становится причиной даунтаймов (например, если кто-то активирует соответствующую функцию по ошибке или невнимательности).

Именно поэтому реализация такой функции в дата-центрах не рекомендуется.

Аналогичной позиции придерживаются и разработчики стандарта TIA-942-2, в котором прямо указано: «Не устанавливать кнопку экстренного отключения питания, если этого не требуют местные власти».

В стандарте BCSI отмечено, что возможность экстренного отключения питания в дата-центре влечёт за собой огромные риски. В то же время в этом стандарте не содержится никаких прямых указаний и рекомендаций; указано, что функция экстренного отключения питания может быть реализована по усмотрению владельцев дата-центра. Для классов F0-F1 процедура отключения должна быть одноступенчатой, а для классов F2-F5 — трёхступенчатой.

Несколько слов об энергоэффективности

Наряду с уровнем доступности и надёжностью важной характеристикой современного дата-центра является энергоэффективность. Исследованиями эффективного использования ресурсов дата-центрами занимается консорциум Green Grid. Участниками этой организации являются в том числе и такие известные компании, как Cisco, Dell, EMC, Intel, IBM и другие. Хотя Green Grid не занимается разработкой стандартов, созданные консорциумом метрики энергоэффективности и инфрастуруктурной эффективности были взяты на вооружение агентством США по охране окружающей среды, а также другими правительственными организациями во всём мире.

Коэффициент энергоэффективности вычисляется по формуле (иллюстрация взята из Википедии):

где PUE — коэффициент энергоэффективности, Total Facility Energy — общий объём потребляемой энергии, а IT Equipment Energy — объём энергии, потребляемый IT-инфраструктурой.

Имеются даже онлайн-калькуляторы (см., например, здесь), с помощью которых можно рассчитать показатели PUE для конкретного дата-центра. Публикаций по вопросам экологичности эксплуатации дата-центров в последнее время появляется довольно много, однако ни в одном стандарте соответствующих требований нет — уже хотя бы потому, что понятие «энергоэффективность» не имеет однозначного определения.

Заключение

В этой статье мы провели краткий обзор основных стандартов, регламентирующих строительство и эксплуатацию дата-центров.

Естественно, все аспекты темы нам охватить не удалось, и если у вас есть дополнения — будем рады, если вы выскажитесь в комментариях.

Цикл статей о дата-центрах скоро будет продолжен. В следующей статье мы подробно поговорим о российских стандартах.