Zen 2 – dodatkowe spostrzeżenia architekturalne

Zen 2 – spostrzeżenia architekturalne

Testy przeprowadziliśmy pod kontrolą Linuxa – Ubuntu 18.04 LTS z kernelem 4.18. Nieznany bliżej problem powoduje, że nowe dystrybucje Linuxa (sprawdziliśmy Ubuntu 18.10 i 19.04, Debian 9.9 i Arch 2019.06.01) nie uruchamiają się na maszynach z procesorem Ryzen Matisse. Problem został zauważony w tygodniu poprzedzającym naszą recenzję również przez innych testerów. Redakcja serwisu Phoronix spekuluje, że chodzi o nieoczekiwane zachowanie sprzętowego generatora liczb losowych, i że problem może być wkrótce naprawiony przez aktualizację komponentu Linuxa systemd lub mikrokodu AMD. Użytkownicy starszych systemów mogą swobodnie zaktualizować kernel do najnowszej wersji (sprawdziliśmy 5.1.15 i 5.2.rc7) nie narażając się na problemy.

Dostęp do pamięci podręcznej L2

Test opóźnienia w dostępie do pamięci podręcznej pokazuje zachowanie niespotykane wcześniej w procesorach desktopowych.

Zwróćcie uwagę na skalę logarytmiczną na obu osiach. Wszystkie wykresy utrzymują się w pewnym zakresie rozmiaru pobieranych danych na mniej więcej równym poziomie, powyżej pewnego rozmiaru przeskakują nagle na wyższy poziom i tak dalej. Skoki na wykresie odpowiadają z grubsza pojemności kolejnych poziomów pamięci podręcznej: do 32 kB pobranie danych trwa poniżej 1 nanosekundy (czyli 4 cykle przy taktowaniu 4100 MHz) – to odpowiada pobraniu z bardzo szybkiej pamięci L1D, która we wszystkich trzech zaprezentowanych procesorach ma pojemność 32 kB. Skylake/Coffee Lake ma kolejny skok opóźnienia powyżej 256 kB, czyli pojemności pamięci L2. W Zen i Zen 2 pamięć L2 ma pojemność 512 kB, więc dopiero pobranie danych powyżej tego rozmiaru wiąże się z większym opóźnieniem.

Naszą uwagę przyciągnęła granica między pojemnością L1D a pojemnością L2 w procesorze Zen 2. Podczas gdy w Zen i Skylake wzrost opóźnienia jest nagły, opóźnienie w Zen 2 narasta stopniowo i dąży do ok. 3 ns. Skoro pamięć podręczna może mieć tylko jedno, stałe opóźnienie dla każdego adresu, to o co chodzi? W Zen 2 wiele porcji danych większych niż L1D było pobieranych z opóźnieniem średnio mniejszym, niż opóźnienie w dostępie do L2. To znaczy, że przy pobieraniu 64-kilobajtowej porcji danych jej część została odnaleziona w L1D, część w L2, a średnie opóźnienie wyszło niższe, niż opóźnienie do L2. Ponieważ adresy były losowe, nie mógł mieć na to wpływu mechanizm pobierania danych z wyprzedzeniem. Wszystko wskazuje na to, że inżynierowie AMD zmienili w Zen 2 reguły rządzące zapełnianiem pamięci podręcznej L1D.

Pamięci podręczne są zarządzane sprzętowo – oprogramowanie „widzi” tylko rejestry procesora i jednolitą przestrzeń pamięci, a procesor sam decyduje, która część tej pamięci będzie przechowywana chwilowo w szybkiej, lokalnej pamięci podręcznej. Typowa i najprostsza reguła to LRU – least recently used – czyli wyrzucanie z pamięci tych linii, które najdawniej były potrzebne. Jeśli potrzeba pobrać nowe dane z pamięci, a pamięć podręczna jest zapełniona, to zwalnia się miejsce przez wyrzucenie tych danych, które od dawna nie były używane. Wszystko wskazuje na to, że Zen 2 śledzi trend dostępów do pamięci i wykrywa sytuacje, w których LRU skutkuje ciągłymi „pudłami”, czyli potrzebne dane regularnie nie są odnajdywane w pamięci podręcznej. W takich przypadkach reguła zarządzania pamięcią L1D jest tymczasowo zmieniana. Znanych jest wiele reguł, które mogą dawać podobne skutki, szczególnie losowe wyrzucanie (zwalnia się miejsce przez wyrzucenie losowo wybranej linii – używane np. w rdzeniach ARM Cortex R5) lub MRU (most recently used – wyrzuca się elementy, który ostatnio były użyte, zakładając że były potrzebne tylko raz).

Podobne zachowanie zaobserwowała redakcja serwisu Anandtech w procesorach Samsung M4 oraz ARM Cortex A75 – pamięć L1D w Zen 2 ma zatem coś wspólnego z tymi architekturami mobilnych procesorów. Reprezentanci AMD nie wspominali nic o regułach zarządzających L1D; być może dowiemy się więcej na konferencji Hot Chips lub gdy AMD zaktualizuje poradnik optymalizacji programowania dla procesorów Zen 2.

Stack engine – efektywne operacje na stosie

Zestaw instrukcji x86 pozwala na operacje na stosie, czyli obszarze pamięci, w którym mamy dostęp do najniższego, czyli ostatnio dołożonego elementu. Dwie instrukcje, PUSH i POP, są podstawą operacji na stosie: PUSH pozwala odłożyć wartość z rejestru lub adresu w pamięci na stos, a POP – zdjąć najniższą wartość i załadować do podanego rejestru. Instrukcja push rax wywołuje dwie zmiany w stanie architekturalnym: trzeba zapisać wartość z rejestru rax na czubku stosu i zaktualizować rejestr rsp wskazujący na czubek stosu, tak żeby wskazywał na nowo dołożoną wartość.

Nowoczesne procesory począwszy od Pentium M mają specjalny podsystem przyspieszający operacje na stosie: stack engine. W najstarszych wersjach stack engine automatycznie aktualizuje wskaźnik stosu, tak, że nie trzeba zajmować jednostek arytmetycznych dodawaniem – reszta rdzenia x86 wykonuje tylko tę część operacji, która przesuwa dane ze stosu do docelowego miejsca. W nowoczesnych procesorach Intela wskaźnik stosu jest w rzeczywistości dwoma rejestrami – jeden jest 64-bitowy, drugi jest 8-bitowy i przechowuje adres względny wobec tego w dłuższym rejestrze. Procesory Intela operują tylko na tej krótszej wartości i sporadycznie dodają ją do długiego rejestru.

W procesorze Zen 2 stack engine jest bardziej złożony. Ciąg instrukcji: push rax pop rax wymaga odłożenia wartości z rejestru rax na stos, a potem pobrania jej z powrotem do tego samego rejestru. W Skylake/Coffee Lake wykonanie tej sekwencji trwa około 4,5 cyklu; w Zen 1 trwa 7 cykli, a w Zen 2 – tylko 1 cykl. Wygląda na to, że stack engine w Zen 2 rozpoznaje, że chodzi cały czas o tę samą wartość i skraca całą sekwencję. To interesujące nie tylko z powodu przewagi nad architekturą Intela – dokumentacja AMD zapowiadała, że ten mechanizm powinien działać również w Zen 1, ale w rzeczywistości nie działał.

Czas komunikacji między rdzeniami

Procesory Ryzen 3000 są zbudowane z czterordzeniowych segmentów – CCX. Rdzenie w jednym CCX mają wspólną pamięć podręczną L3. W jednym jądrze z rdzeniami znajdują się dwa CCX, a w całym procesorze jest jedno lub dwa takie jądra oraz osobne jądro cIOD zawierające kontroler pamięci, kontrolery interfejsów zewnętrznych i inne peryferia. Więcej informacji znajdziecie w artykule o architekturze Zen 2. Każdy segment CCX komunikuje się z innymi za pośrednictwem łącza Infinity Fabric i jądra cIOD – dotyczy to nawet komunikacji między dwoma CCX znajdującymi się w jednym jądrze.

Czas komunikacji między wątkami, posortowany od najmniejszego do największego, pokazuje niejednolitość procesorów Zen. W Skylake/Coffee Lake opóźnienie w komunikacji jest bardzo krótkie pomiędzy dwoma wątkami SMT działającymi na jednym rdzeniu. Pomiędzy wątkami w różnych rdzeniach sięga od ok. 45 ns kiedy dwa rdzenie sąsiadują ze sobą i są odległe o jeden przystanek na magistrali pierścieniowej, aż do ok. 55 ns kiedy są położone po przeciwnych stronach magistrali pierścieniowej – skośna linia pokazuje rosnący dystans między rdzeniami. Opóźnienie w komunikacji między wątkami w Zen 2 jest mniej więcej takie samo jak w Zen 1, kiedy chodzi komunikację między dwoma wątkami SMT na tym samym rdzeniu (ok. 20 ns w Zen 1 i ok. 24 ns w Zen 2). Podobnie z dwoma wątkami w ramach jednego CCX: ok. 35 ns w Zen 1 i Zen 2.

Jeśli komunikacja zachodzi między dwoma CCX, nie ma znaczenia, czy są w jednym jądrze, czy nie: model 3900X z dwoma jądrami ma taki sam, jeden poziom opóźnień, co model 3700X, w którym wszystkie rdzenie są w jednym jądrze. Warto zauważyć, że opóźnienie w komunikacji między CCX jest w Zen 2 prawie dwukrotnie krótsze, niż w Zen 1 – i to mimo tego, że komunikacja zachodzi za pośrednictwem fizycznie dłuższego łącza i drugiego jądra, podczas gdy dwa CCX w Ryzenie 7 2700X komunikują się wewnątrz tego samego jądra!

Podsumowanie

Z tych obserwacji nie wynika nic wpływającego na Wasze decyzje zakupowe – wnioski z naszej recenzji pozostają aktualne. To po prostu garść obserwacji na podstawie danych, które bardzo często zbieramy w trakcie testowania nowego sprzętu, ale bardzo rzadko mamy okazję opublikować. Bardziej praktyczne eksperymenty, na przykład związane ze skalowaniem wydajności wraz z taktowaniem pamięci i Infinity Fabric, przeprowadzimy niebawem.

Data utworzenia: 9 lipca 2019 17:33, aktualizacja: 27 marca 2020 19:07

Mateusz Brzostek

Źródło:

Mateusz Brzostek

Tematy: Zen, Opóźnienia, Zen 2, Ryzen 3000