1. Книги
  2. Техническая литература
  3. Константин Нагорный

Эксплуатация ЦОД. Практическое руководство

Константин Нагорный (2023)
Обложка книги

Практическое пособие по эксплуатации центра обработки данных и обеспечению его непрерывной работы с учетом требований международных стандартов, Uptime Institute и нормативной документации Российской Федерации. В формате PDF A4 сохранен издательский макет книги.

Оглавление

Купить книгу

Приведённый ознакомительный фрагмент книги «Эксплуатация ЦОД. Практическое руководство» предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Введение

Центры обработки данных (ЦОД) приобретают все более важное и критическое значение для повседневной жизни. Особенность их функционирования — беспрерывная и круглосуточная работа. Даже минутные простои могут иметь катастрофические по степени финансового и репутационного ущерба последствия для организации или, в случае отказа каких-либо популярных сервисов, стать заметными по всему миру даже для людей, не связанных с ИТ-индустрией.

По опубликованным данным[1] опросов представителей отрасли, до 79 % респондентов испытывали проблемы, связанные с жизнедеятельностью ЦОД, за последние три года. По нашей собственной десятилетней статистике инцидентов, это число составляет примерно 65 %. Согласно статистическим исследованиям Uptime Institute, 75 %[2] отказов в ЦОД связаны с человеческим фактором. Когда мы только начинали переосмыслять работу службы эксплуатации в 2015 г., эта цифра достигала лишь 70 %.

Человеческий фактор включает в себя ошибки дежурного персонала ЦОД, но, что более важно, также говорит о принятии неверных управленческих решений в отношении подбора сотрудников, выстраивания процессов обслуживания, обучения и общей тщательности выполнения работ по техническому обслуживанию или повседневной деятельности. Независимо от топологии инфраструктуры дата-центра, человеческий фактор представляет наибольший риск для его работоспособности, так как на долю отказов оборудования приходится относительно малая часть инцидентов. Следовательно, целесообразно направлять усилия на устранение большего процента рисков, связанного с человеческими ошибками при эксплуатации. Из них 48 %[3] связано с неверным выполнением процедур, 41 % — с неверно организованными процессами или процедурами.

При правильно организованной системе эксплуатации, даже с несовершенной инженерной инфраструктурой и незначительным уровнем резервирования, ЦОД может иметь лучшее время беспрерывной работы, чем ЦОД с высоким уровнем резервирования систем, но с плохо выстроенной и организованной эксплуатацией. Недостатки инфраструктуры и низкий уровень резервирования можно компенсировать продуманными организационными мерами.

Мы — команда, которая уже более 10 лет занимается эксплуатацией ЦОД, — хотим поделиться с вами своим опытом организации современной модели эксплуатации ЦОД.

Современный подход к управлению эксплуатацией охватывает не только организацию качественной эксплуатации инфраструктуры ЦОД, но и контроль других сопряженных направлений — ИТ/телеком, службы поддержки, уборки, охраны, порядка доступа и пребывания сотрудников ЦОД, клиентов и подрядчиков на территории ЦОД.

Отметим, что описанная ниже модель эксплуатации даст результат только в случае реального осмысления принципов, описанных в этой книге, адаптации их под ваши процессы и самостоятельного внедрения с каждодневным использованием. В этом случае вы получите самоподдерживающуюся экосистему процессов и документации, позволяющую сохранять информированность сотрудников и качество процессов на уровне, позволяющем пройти любой аудит без предварительной подготовки.

В случае же разового точечного внедрения данной системы с целью пройти конкретный аудит вы, конечно же, достигнете временного результата, но все ваши усилия будут напрасны в долгосрочной перспективе, и каждый новый аудит будет вызывать страх и авральные приготовления как руководства, так и рядового персонала.

Мы также не рекомендуем заказывать услуги по созданию документации службы эксплуатации «под ключ». Это внедрение приведет к аналогичному временному результату. Без участия персонала — как руководящего звена, так и рядовых дежурных сотрудников — это все не будет работать. Важно платить деньги не за готовые формальные документы, а за качественное обучение вашего персонала, который сам уже потом применит полученные знания и создаст все требуемые процессы и инструкции, возможно, даже где-то улучшив предложенную концепцию.

Также следует бороться с формальным подходом к процессам со стороны дежурных инженеров ЦОД. Чаще всего он выражается в некачественном ведении отчетности, недостаточном контроле за работой подрядчиков, заполнении чек-листов не в процессе выполнения задачи, а задним числом (например, обход объекта без чек-листа и заполнение его потом). Руководству требуется вести непрерывный контроль, разъяснительную работу, мотивирование и выборочные проверки качества выполнения процедур дежурными, иначе все усилия руководителей могут быть перечеркнуты отношением сотрудников. А лучшим стимулом является собственный пример. Одновременно надо оценивать внедряемые процедуры и документы на предмет минимизации всего того, что требуется заполнять или отправлять в виде отчета. Новые процессы и документы должны упрощать работу руководителей и сотрудников, а не усложнять ее.

Примечания

1

https://uptimeinstitute.com/2021-data-center-industry-survey-results.

2

https://ru.uptimeinstitute.com/professional-services/management-operations.

3

https://uptimeinstitute.com/2021-data-center-industry-survey-results.

Вам также может быть интересно

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я