Boom na sztuczną inteligencję skłania coraz większą liczbę podmiotów do inwestycji w infrastrukturę serwerową. Obecny sprzęt umożliwia osiągnięcie mocy obliczeniowej, która jeszcze kilka lat temu była poza zasięgiem większości firm. Odpowiednie inwestycje poczynił też właściciel platformy X – Elon Musk. Miliarder pochwalił się właśnie uruchomieniem klastra serwerowego, który przyćmiewa swoim potencjałem nawet większość superkomputerów.
Należąca do Elona Muska firma xAI uruchomiła klaster serwerowy składający się z zawrotnej liczby 100 tys. akceleratorów graficznych NVIDIA H100. System będzie wykorzystywany do treningu i obsługi modelu językowego Grok 3.
Grok 3 – kolejna generacja modelu AI może się okazać rewolucyjna. Elon Musk wykorzysta tysiące układów NVIDIA H100
Przedsiębiorca Elon Musk i jego partnerzy pracują nad olbrzymim projektem, który określany jest mianem “Gigafactory of Compute” (“Gigafabryka obliczeniowa”). Jego rozwojem zajmuje się powołana specjalnie w tym celu firma xAI. Ma to być olbrzymie centrum danych, służące treningowi i obsłudze sztucznej inteligencji (w tym chatbota Grok 3), którą następnie wykorzystają należące do Muska podmioty. Całość powstaje we współpracy z firmą Oracle. Miliarder pochwalił się na platformie X, że uczyniono właśnie olbrzymi krok na drodze do realizacji wspomnianej “Gigafabryki”. W Memphis uruchomiony został bowiem prawdopodobnie największy klaster serwerowy w historii. Sprzęt składa się z aż 100 tys. akceleratorów graficznych NVIDIA H100, połączonych ze sobą za pośrednictwem RDMA i chłodzonych cieczą. Dla porównania, za modelem Grok 2 stoi klaster złożony z 20 tys. układów H100. Mamy tutaj zatem do czynienia z przedsięwzięciem pięć razy większym.
NVIDIA H100 – chipy do obsługi sztucznej inteligencji zużyją w przyszłym roku olbrzymią ilość energii elektrycznej
Teoretycznie omawiany klaster serwerowy oferuje dużo większy potencjał obliczeniowy niż najszybsze dostępne obecnie superkomputery. Przykładowo, w skład zajmującego pierwsze miejsce w zestawieniu TOP 500 superkomputera Frontier wchodzi “zaledwie” 38 tys. akceleratorów AMD Instinct MI250X. Druga w zestawieniu Aurora to z kolei 60 tys. układów Intela. Trzeci w rankingu jest Microsoft Eagle, którego podstawą jest 14,5 tys. akceleratorów H100. Warto jednak pamiętać, że tradycyjne superkomputery wykorzystywane są zazwyczaj do nieco innych zadań niż klaster Muska, zatem bezpośrednie porównania nie są tutaj w pełni adekwatne. Trening modelu Grok 3 na sprzęcie xAI powinien zakończyć się najpóźniej w grudniu bieżącego roku.
Nice work by @xAI team, @X team, @Nvidia & supporting companies getting Memphis Supercluster training started at ~4:20am local time.
With 100k liquid-cooled H100s on a single RDMA fabric, it’s the most powerful AI training cluster in the world!
— Elon Musk (@elonmusk) July 22, 2024
Źródło: Tom’s Hardware, @elonmusk (X)
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS