Космические дата-центры: неочевидные операционные риски для гиперскейлеров
Стремительный рост спроса на продукты и сервисы, основанные на искусственном интеллекте, подталкивает крупнейшие технологические компании мира к поиску решений за пределами Земли. В условиях дефицита электроэнергии, задержек с подключением к энергосетям и нехватки земельных ресурсов, внимание крупных облачных провайдеров (гиперскейлеров) всё чаще обращается к орбитальной инфраструктуре как к потенциальному выходу из положения.
Недавно компания Meta*, по сообщениям, зарезервировала около 1 гигаватта солнечной энергии для своих будущих центров обработки данных, ориентированных на ИИ. В то же время, Илон Маск из SpaceX неоднократно заявлял о своих амбициях сделать орбитальную инфраструктуру более доступной.
На первый взгляд, идея кажется логичной: изобилие солнечной энергии для удовлетворения потребностей в питании и отсутствие земельных ограничений, присущих Земле. Однако проектирование инфраструктуры для космоса — это лишь часть проблемы. Некоторые эксперты по безопасности и инфраструктуре предупреждают, что отрасль может серьезно недооценивать операционные риски, связанные с таким переходом.
По мнению Кумара Сокка, генерального директора Acre Security, основная трудность заключается не в вычислительных мощностях, стоимости запусков или системах охлаждения, а в обеспечении отказоустойчивости.
Содержание
- 1 Обслуживание в космосе: ключевое отличие от земных дата-центров
- 2 Архитектурные различия: дата-центры против спутников
- 3 Возможно ли решить проблему обслуживания за счет горячей замены или избыточной мощности?
- 4 Стратегия защиты недоступного оборудования
- 5 Гибридные системы: дополнение или зависимость?
- 6 Перспективы для Acre Security в космической отрасли
Обслуживание в космосе: ключевое отличие от земных дата-центров
Наземные центры обработки данных строятся на критически важном допущении: если что-то пойдет не так, всегда есть возможность физически получить доступ к оборудованию для внесения необходимых изменений. Техники могут оперативно заменить вышедшие из строя компоненты, поменять системы питания или восстановить инфраструктуру. В космосе такие операции значительно усложняются.
В результате, аппаратный сбой, который на Земле можно устранить за несколько часов, в космосе может затянуться на месяцы. Сроки восстановления будут зависеть от графиков запусков, возможностей роботизированных систем ремонта и даже необходимости полной замены спутника.
Операторам также придется учитывать такие факторы, как космический мусор, радиационное излучение и экстремальные перепады температур, помимо враждебной среды для любого обслуживания.
В поисках более глубокого понимания последствий для отказоустойчивости и безопасности при переносе ИИ-инфраструктуры на орбиту, издание побеседовало с Кумаром Сокка из Acre Security. Он объяснил, почему орбитальные вычисления могут кардинально изменить наше представление об ИИ-вычислениях, как трансформируется процесс восстановления после сбоев, когда оборудование становится недоступным, и почему отрасль может просто обменивать одни ограничения и риски на другие.
Архитектурные различия: дата-центры против спутников
Несмотря на значительные ресурсы и экспертный потенциал крупных компаний, Кумар Сокка предостерегает от недооценки проблем с отказоустойчивостью. По его словам, инженерные команды, создававшие наземную инфраструктуру в течение последних двух десятилетий, действительно превосходны, и их опыт огромен. Однако все существующие системы отказоустойчивости базируются на одном ключевом предположении: физический доступ к оборудованию. Именно это позволяет реализовывать многоуровневый контроль доступа, физическое резервирование и быструю замену компонентов. Как только инфраструктура перемещается на орбиту, это предположение теряет силу.
Рутинная починка, занимающая четыре часа на Земле, может растянуться на три-шесть месяцев, включая необходимость ожидания стартового окна для запуска. Последние заявления о том, что спрос на вычислительные мощности опережает возможности наземных энергетических и земельных ресурсов, свидетельствуют, что это уже не теоретическая дискуссия. Инженерные амбиции реальны, и системы физической безопасности должны соответствовать им.
Архитектура орбитальных дата-центров принципиально отличается от существующих спутников. Спутники создаются для автономной работы, а целые созвездия спутников проектируются так, что при отказе одного узла трафик просто перенаправляется. Центры обработки данных работают иначе. Здесь выполняются взаимозависимые рабочие нагрузки, где одна вычислительная задача может охватывать тысячи процессоров, и частичный сбой способен вывести из строя всю операцию. Модели отказоустойчивости, эффективные для независимых спутниковых узлов, плохо применимы к сложной, тесно связанной вычислительной инфраструктуре. Этот пробел пока не полностью устранен, и именно здесь, по мнению эксперта, отрасль должна серьезно задуматься и инвестировать ресурсы.
Возможно ли решить проблему обслуживания за счет горячей замены или избыточной мощности?
В принципе, да, но экономика создает серьезные противоречия. На Земле резервные мощности относительно недороги. Используются конфигурации N+1, оборудование хранится на складе, затраты управляемы.
На орбите каждый килограмм резервного оборудования влечет за собой стоимость запуска. А горячая замена в вакууме, в условиях микрогравитации, с активными требованиями к терморегуляции, требует автоматизированных систем ремонта, которых пока нет в масштабе. Международная космическая станция (МКС) была специально спроектирована для обслуживания человеком и все равно требует выходов в открытый космос (внекорабельная деятельность, EVA) для аппаратных работ. Если речь идет о масштабах, которые прогнозируют некоторые операторы, модель обслуживания должна быть фундаментально переосмыслена до того, как инфраструктура окажется там.
Стратегия защиты недоступного оборудования
Это один из наиболее интересных вопросов, потому что орбитальная инфраструктура переворачивает многие представления, на которых строится физическая безопасность. Эта дисциплина по своей сути заключается в контроле доступа: кто имеет доступ, к чему, как контролируется периметр. На орбите эта модель меняется: никто не может получить доступ, включая операторов. Поэтому стратегия должна сместиться от «защищай и реагируй» к «предсказывай и предотвращай».
Это означает разработку систем самодиагностики, обнаружения аномалий на основе ИИ, которые выявляют деградацию компонентов до того, как она приведет к отказу, а также проектирование оборудования с первого дня с учетом «мягкой деградации» (graceful degradation) вместо жестких отказов. Также необходимо учитывать проблему космического мусора: десятки тысяч отслеживаемых объектов, миллионы более мелких фрагментов, движущихся с огромной скоростью. Невозможно оградить этот периметр. Можно только проектировать системы с учетом этой угрозы, и такое осмысление должно произойти еще до запуска оборудования.
Гибридные системы: дополнение или зависимость?
Если орбитальные вычисления действительно рассматриваются как дополнительная мощь, с полным резервированием на Земле, то риск единой точки отказа управляем. Однако базовая бизнес-логика создает давление в другом направлении. Аргумент в пользу космической инфраструктуры изначально состоит в том, что наземные мощности не могут удовлетворить спрос. Как только это становится реальностью, экономика подталкивает операторов к зависимости, а не к резервированию.
Если на орбите выполняются производственные рабочие нагрузки, которые действительно не могут быть запущены где-либо еще, концепция гибридной системы начинает разрушаться. То, что было задумано как резервная копия, становится критической зависимостью, и этот сдвиг может произойти постепенно, без явного принятия решения.
Перспективы для Acre Security в космической отрасли
Возможность работы в космической сфере активно обсуждается в Acre Security. Хотя сейчас основное внимание компании сосредоточено на разработке единой платформы для наземной инфраструктуры, эти усилия далеки от завершения. Они строят систему, объединяющую контроль доступа, обнаружение вторжений, видеонаблюдение и управление посетителями, которая будет эффективно работать в условиях чрезвычайно сложных и распределенных объектов. Космос, по словам Кумара Сокка, лишь обостряет их мышление.
Смотрите также:
SpaceX получила контракты от Пентагона на 6,4 миллиарда долларов перед историческим IPO http://kupidonchik.org/spacex-poluchila-kontraktyi-ot-pentagona-na-6-4-milliarda-dollarov-pered-istoricheskim-ipo/.
Интересности на тему: Миниатюрные заводы InchFab: новый подход к производству полупроводников
Классные советы в статье "Протесты в Дублине: подрядчики Meta* требуют достойных компенсаций после массовых увольнений" здесь.
Принципы, которые они разрабатывают — единый мониторинг, обнаружение аномалий во взаимозависимых системах, проектирование для сред, где не всегда можно отправить человека для устранения проблемы — применимы и в космическом контексте. Когда отрасль будет готова к серьезному обсуждению стратегии безопасности на орбите, Acre Security хочет быть той организацией, которая уже продумала эти вопросы. Но наиболее ценное, что они могут сделать прямо сейчас, это создать базовую платформу, которая сделает это возможным.
* — деятельность компании запрещена на территории РФ
