Mniej więcej w podobnym okresie czasu, dwa lata temu, NVIDIA zaprezentowała pierwszy akcelerator graficzny, oparty na architekturze Hopper. Mowa o układzie NVIDIA H100, który dzisiaj jest jednym z kluczowych czynników wpływających na wyniki finansowe przedsiębiorstwa. Po dwóch latach od ujawnienia architektury Hopper, przyszła pora na prezentację jego następcy. Mowa o generacji Blackwell, która tym razem została przygotowana zarówno pod zastosowania profesjonalne, jak również rozwiązania dla graczy. Na początek jednak przyszedł czas na ujawnienie akceleratora B200, który ma być przełomowym wręcz układem do obliczeń AI. Przy okazji będzie także ogromnym chipem, bowiem mowa de facto o dwóch GPU złączonych w jedną całość.
Podczas otwierającej konferencji na GTC 2024, NVIDIA ujawniła akcelerator graficzny B200, oparty na architekturze Blackwell. To także pierwsze spojrzenie na nową generację, która w późniejszym czasie zostanie rozszerzona także na rozwiązania z myślą m.in. o graczach.
NVIDIA H200 – nowy akcelerator z pamięcią HBM3e. Firma zapowiada także superkomputer Jupiter z układami GH200
Akcelerator NVIDIA B200 w rzeczywistości jest ogromnym układem, bowiem de facto mowa o połączonych dwóch chipach, które działają jak jedna całość. Każdy z rdzeni posiada po 104 miliardy tranzystorów, co łącznie daje 208 miliardów. Tak jak już mówiono jeszcze przed konferencją, NVIDIA finalnie nie zdecydowała się na przejście na proces technologiczny TSMC N3 z powodu niezadowalających parametrów litografii. Finalnie producent oraz TSMC poszli w bardziej rozbudowaną wersję “4N”, znaną z architektury Hopper oraz Ada Lovelace. Tym razem jednak określono proces mianem TSMC 4NP, co najpewniej oznacza dalsze modyfikacje podstawowej, 5 nm litografii.
NVIDIA B200 | NVIDIA H200 (SMX5) | NVIDIA H100 (SMX5) | |
Architektura | Blackwell | Hopper | Hopper |
Proces technologiczny | TSMC 4NP | TSMC 4N | TSMC 4N |
Liczba tranzystorów | 208 mld | 80 mld | 80 mld |
Bloki SM | 160 | 132 | 132 |
Rdzenie CUDA FP32 | 20 480 | 16 896 | 16 896 |
Rdzenie Tensor | Tak – 5. generacja | Tak – 4. generacja | Tak – 4. generacja |
Obsługiwane instrukcje przez rdzenie Tensor | FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 | FP64, TF32, BF16, FP16, FP8, INT8 | FP64, TF32, BF16, FP16, FP8, INT8 |
Moc TOPS (AI) | 20 000 TOPS | 3958 TOPS | 3958 TOPS |
Pamięć | 192 GB HBM3e | 141 GB HBM3e | 80 GB HBM3e |
Szybkość pamięci | 8 Gbps | 6.5 Gbps | 5.2 Gbps |
Magistrala pamięci | 8192-bit | 5120-bit | 5120-bit |
Przepustowość | 8 TB/s | 4.8 TB/s | 3 TB/s |
TDP | 1000 W | 700 W | 700 W |
NVIDIA B200 może charakteryzować się olbrzymim poborem mocy. Firma Dell już przygotowuje się na taki scenariusz
NVIDIA B200 Tensor Core oferuje łącznie 160 bloków SM oraz 20 480 procesorów CUDA (informacja do potwierdzenia). Architektura Blackwell w zaprezentowanej formie zaoferuje moc obliczeniową dla AI na poziomie 20 PFLOPS, 2.5x więcej w porównaniu do architektury Hopper. NVIDIA B200 oferuje ponadto 8 modułów HBM3e (po 24 GB VRAM każdy) o łącznej pojemności 192 GB, wykorzystującej 8192-bitową magistralę oraz przepustowość sięgającą imponujących 8 TB/s. Współczynnik TDP w peaku sięga 1000 W (z kolei układ B100 Tensor Core będzie miał TDP 700 W, a więc takie same jak dla akceleratorów H100 oraz H200 Tensor Core). Jedną z nowości architektury Blackwell są nowej generacji biblioteki dla Transformer Engine. Dzięki obsłudze skalowania mikrotensorowego w połączeniu z zaawansowanymi algorytmami zarządzenia zakresami dynamicznymi, zintegrowanymi z bibliotekami NVIDIA TensorRT-LLM i NeMo Megatron, architektura Blackwell jest w stanie obsługiwać dwukrotnie większe obliczenia oraz rozmiary modeli dzięki możliwości wnioskowania AI z użyciem 4-bitowych liczb zmiennoprzecinkowych (FP4) oraz 6-bitowych (FP6).
Architektura Blackwell, w celu zwiększenia wydajności dla wielomiliardowych parametrów i tworzenia znacznie większych modeli AI, oferuje obsługę najnowszej, 5. generacji NVLink. Oferuje ona rekordową, dwukierunkową przepustowość na poziomie 1,8 TB/s na każdy układ graficzny, zapewniając w ten sposób płynną i szybką komunikację pomiędzy maksymalnie 576 układami Blackwell. Kolejną nowością jest implementacja silnika RAS, którego celem jest zwiększenie niezawodności, dostępności oraz ułatwienia procesu serwisowania. Dodatkowo architektura Blackwell, już na poziomie rdzenia, oferuje możliwość wykorzystania konserwacji zapobiegawczej opartej na sztucznej inteligencji do przeprowadzania diagnostyki oraz wcześniejszego prognozowania ewentualnych problemów z niezawodnością. Celem jest przede wszystkim zmaksymalizowanie czasu, w którym system oparty na architekturze Blackwell działa z pełną sprawnością. Układy NVIDIA Blackwell B200 posiadają także dedykowany silnik dla dekompresji, obsługujący najnowsze formaty i przyspieszający zapytania dla bazy danych, by w ten sposób zapewnić najwyższą wydajność w analizie oraz nauce na posiadanych danych.
Wraz z układem NVIDIA B200, producent zaprezentował także jeden wielki superchip – GB200, składający się z dwóch akceleratorów B200 oraz jednego procesora NVIDIA Grace (składającego się z 72 rdzeni ARM Neoverse V2). Tak zbudowana platforma jest w stanie zaoferować wydajność w AI na poziomie 40 PFLOPS (petaFlops), łącznie z 864 GB pamięci o przepustowości 16 TB/s. Nie zabraknie tutaj wsparcia także dla najnowszej magistrali PCIe 6.0. Współczynnik TDP układu GB200 ma sięgać 2700 W. Dwa superchipy Grace-Blackwell (GB200) mogą zostać zintegrowane z głównym węzłem obliczeniowym Blackwell, zapewniając tym samym moc obliczeniową AI na poziomie do 80 PFLOPS, oferując 1,7 TB pamięci HBM3e o przepustowości 32 TB/s. Taki system zostanie zabudowany w specjalnej obudowie MGX, w której wykorzystano system chłodzenia cieczą. Superchip Grace-Blackwell GB200, według zapewnień producenta, będzie w stanie zaoferować nawet 30-krotnie wyższą wydajność w obliczeniach AI w porównaniu do platformy Grace-Hopper GH200.
Chipy GB200 będą również częścią nowej platformy obliczeniowej o nazwie GB200 NVL72. Jedna taka platforma zostanie wyposażona w 36 procesorów Grace oraz 72 akceleratory Blackwell B200 (łącznie z 30 TB pamięci HBM3e) i zaoferuje moc obliczeniową w AI na poziomie 1.4 exaFLOPS. Dotychczas taka moc nie była osiągalna dla tego typu konstrukcji. Platformy GB200 NVL72 z kolei będą częścią kompletnego serwera, składającego się z 32 tysięcy akceleratorów B200. Do dyspozycji będzie łącznie 13 PB pamięci HBM3e, a moc obliczeniowa w zadaniach AI będzie sięgać 645 exaFLOPS. Nowe układy i akceleratory wykorzystujące architekturę Blackwell będą dostępne dla klientów w późniejszym czasie, choć mowa wciąż o 2024 roku.
Po lewej – akcelerator NVIDIA B200 Blackwell, po prawej NVIDIA H100 Hopper
NVIDIA Grace-Blackwell Superchip GB200
Źródło: NVIDIA
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS