Зачем Яндекс отключает дата-центры

Каждую неделю поисковик Яндекс отключает один из дата-центров. Специалисты называют эту процедуру учениями. Но что же это такое? Откуда оно появляется? Зачем это делается и может ли такое отключение быть опасным? Компании постоянно приходится отвечать на эти вопросы.

Дата-центры Яндекса

В настоящее время компания имеет несколько своих дата-центров, где расположены десятки тысяч различных серверов и сетевое оборудование. Подобные учения предполагают моделирование реальной ситуации, когда поисковик теряет весь дата-центр или определенную его часть.

Сначала нужно рассмотреть предысторию и понять, на основании чего компания приняла такое решение. Люди привыкли к тому, что сервисы Яндекса работают постоянно, не прерываясь на профилактические процедуры. Серьезные сбои возникают достаточно редко, так что каждая неполадка становится заметной.

В 2000-м году компания арендовала четыре позиции в «МТУ-Интеле», где располагалось всего 40 штук собственных серверов поисковика. Это небольшое количество серверов и стало основой для первого дата-центра Яндекса, находившегося в главном офисе компании в Москве. В тот период времени вся сетевая структура и сервера располагались только в одном дата-центре. В течение нескольких лет компания работала без перебоев, никаких чрезвычайных случаев не было. Но в 2004 году все изменилось – всего лишь за пару минут до начала игры «Кубок Яндекса» в здании, где находилась компания, непредвиденно отключили электричество.

Это была первая серьезная авария, но не последняя. В дата-центрах ломались кондиционеры, поэтому приходилось отключать оборудование, чтобы оно не перегревалось. Случались потопы в зданиях с дата-центрами. Возникали внезапные отключения электричества.

В таких условиях руководство компании поняло, что можно рассчитывать исключительно на свои силы, уметь выживать в любых условиях.

Развитие инфраструктуры центров

После первых аварий в дата-центрах, компания оборудовала их дизель-генераторными установками. Второй центр получил внешнюю связь и с первым дата-центром, и с внешней сетью. Так, теоретически появилась возможность обслуживать клиентов в условиях, когда один из двух центров не работает. Компания поняла, что до того, чтобы воплотить свои идеи, нужно прилично вложиться в избыток, чтобы нагрузка на компанию не росла, нужно исправить много неточностей в архитектуре проектов и дальше развивать инфраструктуру. Все центры получили генераторы, которые неоднократно спасали работу компании.

Также было принято решение, что магистральные сети, которые объединяют все сети, должны быть без единой точки отказа. Каналов связи между центрами не должно быть. Поэтому первая структура сети представляла собой замкнутый круг. Тогда каналы соединяли три центра и точки обмена трафиком. С течением времени магистральная сеть стала двойной. Сейчас все центры соединены в системе full mesh. То есть, обрыв одного кабеля не повлияет на работу сервисов.




Rambler's Top100