Підписуйтеся на наш телеграм канал!
Ілон Маск запустив ШІ-суперкомп'ютер, що працює на рекордній швидкості
Новим дорогим проектом Ілона Маска став суперкомп’ютер xAI Colossus, який містить комплекс з 100 000 графічних процесорів, а суперкластер xAI Colossus працює вже майже два місяці після 122 днів складання.
Блогер Патрік з ServeTheHome провів екскурсію по кількох частинах сервера, надаючи загальний огляд його роботи.
Варто наголосити, що через угоду про нерозголошення деякі деталі суперкомп’ютера, такі як споживана потужність і розміри насосів, не були розкриті, і компанія xAI розмила та цензурувала частини відео перед його випуском, однак найважливіші елементи, такі як сервери Supermicro з GPU (лінія серверів та обчислювальних рішень від компанії Supermicro, які оснащені графічними процесорами (GPU), залишилися переважно незмінними у відео.
GPU-серверами виступили Nvidia HGX H100, які містять по вісім H100 GPU кожен. Платформа HGX H100 розміщена в 4U системі (формфактор сервера висотою приблизно 7 дюймів (178 мм) рідинного охолодження Supermicro, що забезпечує легке «гаряче» заміщення рідинного охолодження для кожного графічного процесора.
Сервери розміщені в стійках, які містять по вісім серверів, що забезпечує 64 GPU на стійку. У нижній частині кожної стійки є ще одна 4U одиниця Supermicro з резервною насосною системою та системою моніторингу стійок.
Стійки паруються в групи по вісім, формуючи 512 GPU на масив. Кожен сервер має чотири резервних блоки живлення, а ззаду GPU-стійок розташовані трифазні блоки живлення, комутатори Ethernet та маніфольд, що забезпечує все рідинне охолодження.
У кластері Colossus є понад 1 500 GPU-стійок, що складає близько 200 масивів стійок.
«GPU для цих 200 масивів були повністю встановлені всього за три тижні» — сказав генеральний директор Nvidia Дженсен Хуан
З огляду на високі вимоги до пропускної здатності суперкластера для постійного навчання моделей, xAI пішла на значні витрати для забезпечення мережевої інтерконектності. Кожна графічна карта має власний NIC (контролер мережевих інтерфейсів) на 400 Гбіт/с, а також додатковий 400 Гбіт NIC на сервер.
Таким чином, кожен сервер HGX H100 має пропускну здатність 3,6 терабіта на секунду, а весь кластер працює через Ethernet, а не InfiniBand або інші екзотичні з'єднання, які зазвичай використовуються в суперкомп’ютерах.
Звичайно, суперкомп’ютер, орієнтований на навчання моделей штучного інтелекту, таких як чат-бот Grok 3, потребує більше, ніж просто GPU для функціонування. Деталі про зберігання та сервери CPU в Colossus є більш обмеженими.
Сервери також в основному виконані в шасі Supermicro. Сервери 1U з підтримкою NVMe з якоюсь платформою CPU x86 всередині забезпечують зберігання та обчислення з заднім рідинним охолодженням.
На зовнішній стороні видно згруповані банки акумуляторів Tesla Megapack. Через початок і зупинку масиву з мілісекундною затримкою між банками було важко впоратися з енергетичною мережею або дизельними генераторами Musk, тому використовуються акумулятори Tesla Megapack (кожен з яких вміщує до 3,9 МВт-год) як буфер між електромережею та суперкомп’ютером.