NVIDIA opublikowała pierwsze wyniki MLPerf 4.1 swojego GPU Blackwell B200. Wyniki pokazują, że układ graficzny Blackwell oferuje nawet czterokrotnie większą wydajność niż jego poprzednik H100 oparty na architekturze Hopper, co pokazuje przewagę Zielonych w dziedzinie sprzętu AI. Choć firma nieco podkoloryzowała to porównanie.
Blackwell B200 zostawia poprzednika daleko w tyle
Z danych NVIDII wynika, że GPU B200 oparte na architekturze Blackwell zapewnia 10 755 tokenów na sekundę na pojedynczym układzie graficznym w teście wnioskowania serwera i 11 264 tokenów na sekundę w teście referencyjnym offline. Szybkie porównanie z bazą wyników MLPerf Llama 2 70B pokazuje, że 4-procesorowa maszyna oparta na Hopper H100 zapewnia podobne wyniki, co potwierdza zapewnienia producenta, że pojedynczy układ Blackwell jest około 3,7–4 razy szybszy niż pojedynczy Hopper H100.
Wyniki pokazują, że układ graficzny Blackwell oferuje nawet czterokrotnie większą wydajność niż jego poprzednik H100 oparty na architekturze Hopper.
Porównanie jest nieco naciągane
Ale są tu pewne zastrzeżenia, po pierwsze GPU Blackwell wykorzystywał precyzję FP4, ponieważ rdzenie Tensor piątej generacji obsługują ten format, podczas gdy procesor H100 oparty na Hopperze obsługuje i wykorzystuje tylko FP8. Te różne formaty są dozwolone przez wytyczne MLPerf, ale wydajność 4PR w Blackwell podwaja przepustowość 8PR, więc warto mieć to na uwadze.
Po drugie porównanie jednego GPU B200 z czterema H100 nie jest do końca uczciwe. Skalowanie nigdy nie jest idealne, więc pojedyncza karta graficzna jest zazwyczaj najlepszym rozwiązaniem pod względem wydajności. Dla MLPerf 4.1 nie ma żadnych wyników H100 z pojedynczą kartą graficzną i znaleźć można tu tylko jeden wynik dla B200. Jednak pojedynczy H200 osiągnął 4488 tokenów/s, co oznacza, że B200 jest tylko 2,5 razy szybszy w tym konkretnym porównaniu.
Jak zauważa Tom’s Hardware, pojemność pamięci i przepustowość również są bardzo istotne, a różnice generacyjne są duże w tym zakresie. Testowany układ B200 obsługuje 180 GB pamięci HBM3E, H100 SXM ma 80 GB HBM (w niektórych konfiguracjach do 96 GB), a H200 ma 96 GB HBM3 i do 144 GB HBM3E. Jeden z wyników dla pojedynczego H200 z 96 GB HBM3 osiąga jedynie 3114 tokenów/s w trybie offline.
Istnieją zatem potencjalne różnice w formacie liczb, liczbie procesorów graficznych oraz pojemności i konfiguracji pamięci, które wpływają na wydajność i pozwalają zapewnić tę czterokrotną przewagę, którą chwali się NVIDIA. Wiele z tych różnic wynika po prostu z tego, że Blackwell B200 jest nowym chipem o nowszej architekturze, a wszystkie te rzeczy wpływają na wydajność.
Trzeba mieć też na uwadze, że na razie NVIDIA podzieliła się wynikami swojego B200 jedynie w teście porównawczym generatywnej sztucznej inteligencji MLPerf 4.1 na modelu Llama 2 70B. Zobaczymy, jak Blackwell poradzi sobie w innych testach.
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS