A A+ A++

NVIDIA opublikowała pierwsze wyniki MLPerf 4.1 swojego GPU Blackwell B200. Wyniki pokazują, że układ graficzny Blackwell oferuje nawet czterokrotnie większą wydajność niż jego poprzednik H100 oparty na architekturze Hopper, co pokazuje przewagę Zielonych w dziedzinie sprzętu AI. Choć firma nieco podkoloryzowała to porównanie.

Blackwell B200 zostawia poprzednika daleko w tyle

Z danych NVIDII wynika, że ​​GPU B200 oparte na architekturze Blackwell zapewnia 10 755 tokenów na sekundę na pojedynczym układzie graficznym w teście wnioskowania serwera i 11 264 tokenów na sekundę w teście referencyjnym offline. Szybkie porównanie z bazą wyników MLPerf Llama 2 70B pokazuje, że 4-procesorowa maszyna oparta na Hopper H100 zapewnia podobne wyniki, co potwierdza zapewnienia producenta, że pojedynczy układ Blackwell jest około 3,7–4 razy szybszy niż pojedynczy Hopper H100. 

Wyniki pokazują, że układ graficzny Blackwell oferuje nawet czterokrotnie większą wydajność niż jego poprzednik H100 oparty na architekturze Hopper.

Porównanie jest nieco naciągane

Ale są tu pewne zastrzeżenia, po pierwsze GPU Blackwell wykorzystywał precyzję FP4, ponieważ rdzenie Tensor piątej generacji obsługują ten format, podczas gdy procesor H100 oparty na Hopperze obsługuje i wykorzystuje tylko FP8. Te różne formaty są dozwolone przez wytyczne MLPerf, ale wydajność 4PR w Blackwell podwaja przepustowość 8PR, więc warto mieć to na uwadze.

Po drugie porównanie jednego GPU B200 z czterema H100 nie jest do końca uczciwe. Skalowanie nigdy nie jest idealne, więc pojedyncza karta graficzna jest zazwyczaj najlepszym rozwiązaniem pod względem wydajności. Dla MLPerf 4.1 nie ma żadnych wyników H100 z pojedynczą kartą graficzną i znaleźć można tu tylko jeden wynik dla B200. Jednak pojedynczy H200 osiągnął 4488 tokenów/s, co oznacza, że ​​B200 jest tylko 2,5 razy szybszy w tym konkretnym porównaniu.

Jak zauważa Tom’s Hardware, pojemność pamięci i przepustowość również są bardzo istotne, a różnice generacyjne są duże w tym zakresie. Testowany układ B200 obsługuje 180 GB pamięci HBM3E, H100 SXM ma 80 GB HBM (w niektórych konfiguracjach do 96 GB), a H200 ma 96 GB HBM3 i do 144 GB HBM3E. Jeden z wyników dla pojedynczego H200 z 96 GB HBM3 osiąga jedynie 3114 tokenów/s w trybie offline.

Istnieją zatem potencjalne różnice w formacie liczb, liczbie procesorów graficznych oraz pojemności i konfiguracji pamięci, które wpływają na wydajność i pozwalają zapewnić tę czterokrotną przewagę, którą chwali się NVIDIA. Wiele z tych różnic wynika po prostu z tego, że Blackwell B200 jest nowym chipem o nowszej architekturze, a wszystkie te rzeczy wpływają na wydajność.

Trzeba mieć też na uwadze, że na razie NVIDIA podzieliła się wynikami swojego B200 jedynie w teście porównawczym generatywnej sztucznej inteligencji MLPerf 4.1 na modelu Llama 2 70B. Zobaczymy, jak Blackwell poradzi sobie w innych testach. 





Obserwuj nas w Google News

Oryginalne źródło: ZOBACZ
0
Udostępnij na fb
Udostępnij na twitter
Udostępnij na WhatsApp

Oryginalne źródło ZOBACZ

Subskrybuj
Powiadom o

Dodaj kanał RSS

Musisz być zalogowanym aby zaproponować nowy kanal RSS

Dodaj kanał RSS
0 komentarzy
Informacje zwrotne w treści
Wyświetl wszystkie komentarze
Poprzedni artykułPrzełożony mecz GKS-u Jastrzębie
Następny artykułPracujący emeryci od września mogą dorobić mniej. Sprawdź kogo obejmą ograniczenia