29 марта 2018, 18:40

«Несколько дисков всегда ломаются». Почему Telegram был недоступен три часа

Читать 360tv в

-

Реклама

Неполадки начались около 11:00 по московскому времени и длились примерно три часа. Павел Дуров написал в Twitter, что они связаны с отключением электричества в дата-центре, где хранятся серверы компании.

Растет раздражительность, глаз дергается: как в соцсетях реагируют на падение Telegram

После того как Telegram заработал, Дуров в своем официальном канале рассказал, что неполадки были вызваны плановым обслуживанием, которое привело к непредвиденным обстоятельствам.

Каждый сервис, который растет слишком быстро, испытывает проблемы роста; к сожалению, Telegram не является исключением, хотя и стремится им быть. Многие наши пользователи в Европе испытали проблемы с подключением ранее сегодня. Это было вызвано плановым обслуживанием провайдера нашего дата-центра, что, к сожалению, привело к незапланированному отключению — Павел Дуров.

Неполадки сервиса не обошел стороной Роскомнадзор — ведомство предложило Дурову хранить данные в России, аргументировав это выгодными ценами на электричество.

Бывший сотрудник Telegram Антон Розенберг рассказал «360», что для перезагрузки серверов достаточно отключения питания на одну секунду. «После этого системные администраторы Telegram должны добраться до компьютеров и начать поднимать оборудование и базы данных, бороться с нагрузкой, так как уходит кеш из оперативной памяти, менять сломавшиеся жесткие диски — при перезагрузке тысячи серверов несколько дисков всегда ломаются, таков закон больших чисел», — пояснил он.

По словам Розенберга, обычно в дата-центрах располагаются несколько независимых вводов электричества и даже дизель-генераторы на случай отключения всех вводов. «При этом также должны быть источники бесперебойного питания, которые обеспечивают работу серверов во время переключения ввода (порядка секунды) или автоматического запуска дизель-генераторов (в пределах минуты). Но это сложная система, так что сбои теоретически возможны», — сказал Розенберг.

Существует несколько уровней резервирования информации. В больших проектах оно может осуществляться на уровне дата-центров — то есть изначально предусматривать возможность сбоя и переключать всю нагрузку на другие дата-центры. Но такой подход требует увеличения числа серверов и, соответственно, расходов, объяснил Розенберг.

Реклама

Реклама