A A+ A++

Mniej więcej w podobnym okresie czasu, dwa lata temu, NVIDIA zaprezentowała pierwszy akcelerator graficzny, oparty na architekturze Hopper. Mowa o układzie NVIDIA H100, który dzisiaj jest jednym z kluczowych czynników wpływających na wyniki finansowe przedsiębiorstwa. Po dwóch latach od ujawnienia architektury Hopper, przyszła pora na prezentację jego następcy. Mowa o generacji Blackwell, która tym razem została przygotowana zarówno pod zastosowania profesjonalne, jak również rozwiązania dla graczy. Na początek jednak przyszedł czas na ujawnienie akceleratora B200, który ma być przełomowym wręcz układem do obliczeń AI. Przy okazji będzie także ogromnym chipem, bowiem mowa de facto o dwóch GPU złączonych w jedną całość.

Podczas otwierającej konferencji na GTC 2024, NVIDIA ujawniła akcelerator graficzny B200, oparty na architekturze Blackwell. To także pierwsze spojrzenie na nową generację, która w późniejszym czasie zostanie rozszerzona także na rozwiązania z myślą m.in. o graczach.

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [1]

NVIDIA H200 – nowy akcelerator z pamięcią HBM3e. Firma zapowiada także superkomputer Jupiter z układami GH200

Akcelerator NVIDIA B200 w rzeczywistości jest ogromnym układem, bowiem de facto mowa o połączonych dwóch chipach, które działają jak jedna całość. Każdy z rdzeni posiada po 104 miliardy tranzystorów, co łącznie daje 208 miliardów. Tak jak już mówiono jeszcze przed konferencją, NVIDIA finalnie nie zdecydowała się na przejście na proces technologiczny TSMC N3 z powodu niezadowalających parametrów litografii. Finalnie producent oraz TSMC poszli w bardziej rozbudowaną wersję “4N”, znaną z architektury Hopper oraz Ada Lovelace. Tym razem jednak określono proces mianem TSMC 4NP, co najpewniej oznacza dalsze modyfikacje podstawowej, 5 nm litografii.

  NVIDIA B200 NVIDIA H200 (SMX5) NVIDIA H100 (SMX5)
Architektura Blackwell Hopper Hopper
Proces technologiczny TSMC 4NP TSMC 4N TSMC 4N
Liczba tranzystorów 208 mld 80 mld 80 mld
Bloki SM 160 132 132
Rdzenie CUDA FP32 20 480 16 896 16 896
Rdzenie Tensor Tak – 5. generacja Tak – 4. generacja Tak – 4. generacja
Obsługiwane instrukcje przez rdzenie Tensor FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 FP64, TF32, BF16, FP16, FP8, INT8 FP64, TF32, BF16, FP16, FP8, INT8
Moc TOPS (AI) 20 000 TOPS 3958 TOPS 3958 TOPS
Pamięć 192 GB HBM3e 141 GB HBM3e 80 GB HBM3e
Szybkość pamięci 8 Gbps 6.5 Gbps 5.2 Gbps
Magistrala pamięci 8192-bit 5120-bit 5120-bit
Przepustowość 8 TB/s 4.8 TB/s 3 TB/s
TDP 1000 W 700 W 700 W

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [2]

NVIDIA B200 może charakteryzować się olbrzymim poborem mocy. Firma Dell już przygotowuje się na taki scenariusz

NVIDIA B200 Tensor Core oferuje łącznie 160 bloków SM oraz 20 480 procesorów CUDA (informacja do potwierdzenia). Architektura Blackwell w zaprezentowanej formie zaoferuje moc obliczeniową dla AI na poziomie 20 PFLOPS, 2.5x więcej w porównaniu do architektury Hopper. NVIDIA B200 oferuje ponadto 8 modułów HBM3e (po 24 GB VRAM każdy) o łącznej pojemności 192 GB, wykorzystującej 8192-bitową magistralę oraz przepustowość sięgającą imponujących 8 TB/s. Współczynnik TDP w peaku sięga 1000 W (z kolei układ B100 Tensor Core będzie miał TDP 700 W, a więc takie same jak dla akceleratorów H100 oraz H200 Tensor Core). Jedną z nowości architektury Blackwell są nowej generacji biblioteki dla Transformer Engine. Dzięki obsłudze skalowania mikrotensorowego w połączeniu z zaawansowanymi algorytmami zarządzenia zakresami dynamicznymi, zintegrowanymi z bibliotekami NVIDIA TensorRT-LLM i NeMo Megatron, architektura Blackwell jest w stanie obsługiwać dwukrotnie większe obliczenia oraz rozmiary modeli dzięki możliwości wnioskowania AI z użyciem 4-bitowych liczb zmiennoprzecinkowych (FP4) oraz 6-bitowych (FP6).

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [3]

Architektura Blackwell, w celu zwiększenia wydajności dla wielomiliardowych parametrów i tworzenia znacznie większych modeli AI, oferuje obsługę najnowszej, 5. generacji NVLink. Oferuje ona rekordową, dwukierunkową przepustowość na poziomie 1,8 TB/s na każdy układ graficzny, zapewniając w ten sposób płynną i szybką komunikację pomiędzy maksymalnie 576 układami Blackwell. Kolejną nowością jest implementacja silnika RAS, którego celem jest zwiększenie niezawodności, dostępności oraz ułatwienia procesu serwisowania. Dodatkowo architektura Blackwell, już na poziomie rdzenia, oferuje możliwość wykorzystania konserwacji zapobiegawczej opartej na sztucznej inteligencji do przeprowadzania diagnostyki oraz wcześniejszego prognozowania ewentualnych problemów z niezawodnością. Celem jest przede wszystkim zmaksymalizowanie czasu, w którym system oparty na architekturze Blackwell działa z pełną sprawnością. Układy NVIDIA Blackwell B200 posiadają także dedykowany silnik dla dekompresji, obsługujący najnowsze formaty i przyspieszający zapytania dla bazy danych, by w ten sposób zapewnić najwyższą wydajność w analizie oraz nauce na posiadanych danych.

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [4]

Wraz z układem NVIDIA B200, producent zaprezentował także jeden wielki superchip – GB200, składający się z dwóch akceleratorów B200 oraz jednego procesora NVIDIA Grace (składającego się z 72 rdzeni ARM Neoverse V2). Tak zbudowana platforma jest w stanie zaoferować wydajność w AI na poziomie 40 PFLOPS (petaFlops), łącznie z 864 GB pamięci o przepustowości 16 TB/s. Nie zabraknie tutaj wsparcia także dla najnowszej magistrali PCIe 6.0. Współczynnik TDP układu GB200 ma sięgać 2700 W. Dwa superchipy Grace-Blackwell (GB200) mogą zostać zintegrowane z głównym węzłem obliczeniowym Blackwell, zapewniając tym samym moc obliczeniową AI na poziomie do 80 PFLOPS, oferując 1,7 TB pamięci HBM3e o przepustowości 32 TB/s. Taki system zostanie zabudowany w specjalnej obudowie MGX, w której wykorzystano system chłodzenia cieczą. Superchip Grace-Blackwell GB200, według zapewnień producenta, będzie w stanie zaoferować nawet 30-krotnie wyższą wydajność w obliczeniach AI w porównaniu do platformy Grace-Hopper GH200.

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [5]

Chipy GB200 będą również częścią nowej platformy obliczeniowej o nazwie GB200 NVL72. Jedna taka platforma zostanie wyposażona w 36 procesorów Grace oraz 72 akceleratory Blackwell B200 (łącznie z 30 TB pamięci HBM3e) i zaoferuje moc obliczeniową w AI na poziomie 1.4 exaFLOPS. Dotychczas taka moc nie była osiągalna dla tego typu konstrukcji. Platformy GB200 NVL72 z kolei będą częścią kompletnego serwera, składającego się z 32 tysięcy akceleratorów B200. Do dyspozycji będzie łącznie 13 PB pamięci HBM3e, a moc obliczeniowa w zadaniach AI będzie sięgać 645 exaFLOPS. Nowe układy i akceleratory wykorzystujące architekturę Blackwell będą dostępne dla klientów w późniejszym czasie, choć mowa wciąż o 2024 roku.

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [6]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [7]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [8]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [9]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [10]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [11]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [12]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [13]
Po lewej – akcelerator NVIDIA B200 Blackwell, po prawej NVIDIA H100 Hopper

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [14]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [15]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [16]
NVIDIA Grace-Blackwell Superchip GB200

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [17]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [18]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [19]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [20]

NVIDIA B200 Tensor Core - akcelerator graficzny oparty na architekturze Blackwell. Na pokładzie m.in. 192 GB pamięci HBM3e [21]

Źródło: NVIDIA

Oryginalne źródło: ZOBACZ
0
Udostępnij na fb
Udostępnij na twitter
Udostępnij na WhatsApp

Oryginalne źródło ZOBACZ

Subskrybuj
Powiadom o

Dodaj kanał RSS

Musisz być zalogowanym aby zaproponować nowy kanal RSS

Dodaj kanał RSS
0 komentarzy
Informacje zwrotne w treści
Wyświetl wszystkie komentarze
Poprzedni artykułBRAS: Zmiana terminu publikacji raportu rocznego za rok 2023
Następny artykułAQUATECH: Zmiana terminu publikacji raportu rocznego za rok 2023