IBM na HotChips 33 szczegółowo opisał swój procesor następnej generacji o nazwie Telum, który jest częścią linii Z. Układ Telum ma zupełnie nową architekturę rdzenia, która jest nastawiona na akcelerację sztucznej inteligencji (AI).
Według IBM nowo zoptymalizowany rdzeń Z wraz z zupełnie nową pamięcią podręczną i wielochipową hierarchią sieci szkieletowych umożliwia wzrost wydajności o ponad 40% na gniazdo. Układ Telum składa się w sumie z 8 rdzeni z dedykowaną pamięcią podręczną L2. Chip oferuje wielowątkowość współbieżną SMT2, co daje 16 wątków, podczas gdy maksymalna konfiguracja 32 rdzeni i 64 wątków jest możliwa w systemie 4-szufladowym.
Według IBM nowo zoptymalizowany rdzeń Z wraz z zupełnie nową pamięcią podręczną i wielochipową hierarchią sieci szkieletowych umożliwia wzrost wydajności o ponad 40% na gniazdo.
Prędkości zegara przekraczają 5 GHz, a układ Telum Z jest wyposażony w przeprojektowaną funkcję przewidywania rozgałęzień ze zintegrowanym BTB 1/2 poziomu, dynamiczną rekonfiguracją wpisów BTB i zapewnia 270 tysięcy wpisów w tablicy miejsc rozgałęzień. Prywatna pamięć podręczna L2 ma rozmiar 32 MB i charakteryzuje się 19-krotnym opóźnieniem podczas ładowania (~3,8 ns, w tym dostęp TLB).
Przechodząc na pamięci podręczne L3 i L4, które są współużytkowane przez 8 rdzeni, procesor IBM Z Telum zawiera wirtualną pamięć podręczną L3 o pojemności 256 MB i wirtualną pamięć podręczną L4 o pojemności 2 GB w maksymalnie 8 układach. Pamięć podręczna L2 wykorzystuje topologię dwukierunkowych połączeń pierścieniowych o przepustowości 320 GB/s, podczas gdy pamięć podręczna L3 jest dystrybuowana za pośrednictwem współpracy L2 i ma średnie opóźnienie wynoszące 12 ns. Wirtualna pamięć podręczna L3 i L4 zapewnia 1,5x pamięci podręcznej na rdzeń.
Moc obliczeniowa w akceleracji AI jest oceniana na ponad 6 TFLOP na chip i ponad 200 TFLOP w 4-szufladowym systemie, który łączy 32 układy Telum. Chipy IBM Z Telum można skalować w celu uzyskania jeszcze większej wydajności, ponieważ istnieją zarówno modułowe konstrukcje jednoukładowe, jak i dwuukładowe. Konfiguracja 2-chipowa ma konstrukcję chipletu z 2 układami Telum i oferuje 16 rdzeni, 32 wątki i 512 MB pamięci podręcznej. IBM Z Telum Chip zostanie wyprodukowany w 7-nanometrowym procesie technologicznym Samsunga i będzie zajmować powierzchnię 530 mm2. Chip będzie zawierał 22,5 miliarda tranzystorów i będzie przeznaczony dla przedsiębiorstw i systemów embedded dla obciążeń roboczych.
Zobacz także:
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS