AMD Ryzen Threadripper 2970WX i 2920X – skrócony test i rzut oka na dynamiczny lokalny dostęp do pamięci

Dwa nowe Threadrippery drugiej generacji to 24-rdzeniowy 2970WX i 12-rdzeniowy 2920X. Ten pierwszy to mniejsza wersja najpotężniejszego Threadrippera, 2990WX. Ma taką samą bazową częstotliwość taktowania i maksymalną częstotliwość turbo, ma również podobną budowę: połowa rdzeni ma pośredni dostęp do pamięci operacyjnej przez łącze Infinity Fabric i kontrolery pamięci znajdujące się w innych jądrach.

Model	Rdzenie /wątki	Taktowanie bazowe	Taktowanie turbo	Wspólna pamięć podręczna L3	Cena	TDP
Ryzen Threadripper 2990WX	32/64	3,0 GHz	4,2 GHz	64 MB	ok. 8400 zł	250 W
Ryzen Threadripper 2970WX	24/48	3,0 GHz	4,2 GHz	64 MB	ok. 5800 zł	250 W
Ryzen Threadripper 2950X	16/32	3,5 GHz	4,4 GHz	32 MB	ok. 4100 zł	180 W
Ryzen Threadripper 1950X	16/32	3,4 GHz	4,2 GHz	32 MB	ok. 3470 zł	180 W
Ryzen Threadripper 2920X	12/24	3,5 GHz	4,3 GHz	32 MB	ok. 2900 zł	180 W
Ryzen Threadripper 1920X	12/24	3,5 GHz	4,2 GHz	32 MB	ok. 1800 zł	180 W
Ryzen Threadripper 1900X	8/16	3,1 GHz	3,4 GHz	8 MB	ok. 1310 zł	180 W
Ryzen 7 2700X	8/16	3,7 GHz	4,3 GHz	16 MB	ok. 1475 zł	105 W

Cena Threadrippera 2970WX nie zaskakuje: jest w pół drogi między modelem 16-rdzeniowym a 32-rdzeniowym. Za to Threadripper 2920X wydaje się na pierwszy rzut oka bardzo drogi, szczególnie w porównaniu z 1920X z poprzedniej generacji. Ten ostatni bywa jeszcze tańszy, bo często pojawia się na wyprzedażach, zwłaszcza w zagranicznych sklepach wysyłających towary do Polski.

Jednocześnie AMD udostępniło nową wersję programu Ryzen Master, a wraz z nią pewną funkcję programową, która może być istotna dla użytkowników obu Threadripperów z serii WX. Więcej o niej piszemy na następnej stronie.

Ze względu na ostatnie aktualizacje oprogramowania (opowiadaliśmy o nich w najnowszym odcinku „Labotomii”) nie mogliśmy wykorzystać wyników wszystkich testów, które przeprowadziliśmy poprzednio. Będziemy uzupełniać bazę aktualnych wyników w kolejnych artykułach.

Dynamic Local Mode – jak to działa?

Nowa funkcja programowa dla Threadripperów z serii WX została nazwana Dynamic Local Mode (dalej będziemy używać skrótu DLM). Można ją włączyć w tym samym miejscu, gdzie w Threadripperach serii X można przełączyć tryb dostępu do pamięci z rozproszonego (UMA) na lokalny (NUMA). Wbrew nazwie nie jest to żaden nowy wynalazek sprzętowy ani klasyfikacja tego samego rodzaju co UMA i NUMA. DLM jest pewnym wspomagaczem schedulera Windows, który ma dbać o to, żeby programy najbardziej tego potrzebujące były zawsze przydzielone do tych rdzeni, które mają najszybszy dostęp do pamięci. DLM jest przeznaczony wyłącznie do systemu Windows – Linux nie powinien wymagać takiego wspomagania.

Windows co prawda wie, które procesory logiczne należą do jednej domeny NUMA, które domeny NUMA zawierają pamięć i procesory, a które tylko procesory, a nawet które procesory mają wspólną pamięć podręczną (w ramach jednego CCX), ale nie bierze tego zbyt mocno pod uwagę. Jak wytłumaczyli inżynierowie AMD, procesy często zostają przydzielone do procesorów logicznych na zasadzie „kto pierwszy, ten lepszy”. W ten sposób procesy w małym stopniu korzystające z pamięci operacyjnej albo mało wrażliwe na duże opóźnienie w dostępie do niej mogą wylądować na procesorach z najszybszym dostępem, a inne, którym bardziej by się to przydało – w dwóch domenach NUMA bez lokalnej pamięci.

Działanie DLM zapewnia usługa działająca w tle; zostaje ona zainstalowana i automatycznie włączona podczas instalacji programu Ryzen Master, jeśli instalator wykryje procesor Threadripper WX. Można ją ręcznie wyłączyć w Ryzen Masterze albo z wykorzystaniem funkcji zarządzania usługami w narzędziach administracyjnych Windows.

Można zauważyć pewne podobieństwo do techniki Turbo Boost Max, dostępnej użytkownikom procesorów Skylake X Intela, która również działa dzięki oprogramowaniu uruchamiającemu się automatycznie przy starcie systemu. Rozwiązanie AMD jest znacznie bardziej eleganckie. Nie wymaga specjalnego sterownika, nie uruchamia się, jeśli zmienimy procesor na inny niż Threadripper WX, nie powoduje problemów przy przenoszeniu systemu pomiędzy różnymi platformami (również z AMD na Intela).

(screenshot, nie kasować)

Sprawdziliśmy wydajność przy włączonym i wyłączonym DLM. Na wykresach na dalszych stronach zamieściliśmy oba komplety wyników; poniżej możecie zobaczyć podsumowanie.

Włączenie DLM w niektórych przypadkach radykalnie zmienia wydajność. Ten eksperyment sporo nam mówi o stanie oprogramowania.

Po pierwsze, w programach nieświadomych architektury NUMA wzrost wydajności może sięgać kilkudziesięciu procent. Być może nasze narzekanie na pakiet Adobe jest już nieco męczące, ale nie możemy przejść obojętnie obok niektórych obserwacji. Dlaczego samodzielny enkoder x264 całkiem nieźle sobie radzi bez wspomagania schedulowania, a enkoder x264 w Adobe Media Encoder wymaga pomocy DLM?

W wielu zastosowaniach DLM nie robi wielkiej różnicy; wzrost lub spadek wydajności jest raczej skutkiem przełączania procesów między procesorami logicznymi niż konkretnego przydziału. Zaliczylibyśmy do nich 7-Zip i renderer Corona, który nie korzysta intensywnie z pamięci, więc traci chyba tylko z powodu przestojów w trakcie przełączania wątków.

Przypadek y-crunchera pokazuje, że jeśli oprogramowanie jest gotowe na NUMA, pozostawienie w jego rękach kontroli nad koligacją i alokacją pamięci jest najlepszym wyjściem. Y-cruncher bierze pod uwagę wszystkie szczegóły topologii maszyny, jest nawet przystosowany do bardziej zróżnicowanych komputerów z wieloma osobnymi procesorami lub segmentami połączonymi przez sieć. Wtrącanie się w jego działanie przez DLM powoduje radykalny spadek wydajności.

To jeden z dowodów na to, że takie zachowanie Windows nie jest błędem, ale raczej skutkiem wyboru dokonanego przez twórców systemu operacyjnego. Po prostu świat oprogramowania nie opracował (jeszcze) odpowiedniego mechanizmu, który by zapewnił programom najlepsze quality of service w dostępie do zasobów obliczeniowych. Nie wydaje się, żeby najlepszym rozwiązaniem było pozostawienie tego całkowicie w rękach systemu operacyjnego, który przecież nie wie, co dokładnie robią i czego wymagają nowe programy i scenariusze użytkowania. Również zostawienie tego całkowicie po stronie programów użytkowych nie jest optymalne, bo starsze (a może przestarzałe?) narzędzia nie są gotowe na innowacje w sprzęcie.

Widzimy pewne pole do poprawy usługi DLM: być może przydałby się mechanizm oparty na prowadzonej przez AMD czarnej liście programów, w których działanie lepiej się nie wtrącać.

W przypadku Threadrippera 2970WX DLM usuwa wiele sytuacji, w których tańszy model 2950X okazywał się wydajniejszy.

Threadripper 2990WX z Dynamic Local Mode

AKTUALIZACJA – 12 XII 2018 r.

Mieliśmy niedawno możliwość ponownego przetestowania najwyższego modelu z serii Threadripper, 2990WX, z włączonym i wyłączonym dynamicznym trybem lokalnym. Jak się okazuje, wnioski wyciągnięte na podstawie zachowania 2970WX nie pokrywają się z rezultatami nowego eksperymentu.

DLM nie jest panaceum na wszystkie kłopoty kiepskiego oprogramowania. Potwierdza się poprzednia obserwacja, że megawątkowe programy, których twórcy już dawno zetknęli się z maszynami typu NUMA, tracą w większości przypadków po włączeniu trybu DLM. Najdziwniejsze, że spowalnia również kodowanie wideo w Handbrake i DaVinci Resolve, które przyspieszało zauważalnie po włączeniu DLM na 24-rdzeniowym Threadripperze. Dobra wiadomość jest taka, że po włączeniu DLM średnio więcej zyskujemy, niż tracimy. Do tego usługę odpowiedzialną za działanie DLM można włączyć i wyłączyć „na gorąco”, bez restartowania komputera, a nawet bez używania programu Ryzen Master.

Jako ciekawostkę dodamy, że DLM pozwala komfortowo zagrać w niektóre gry, które sprawiały znaczne kłopoty bez DLM. Granie i testy wydajności w grach nie były naszym priorytetem podczas testów Threadrippera 2990WX i zapewne nie będą dla potencjalnych użytkowników takiego procesora. Zauważyliśmy jednak, że w Watch Dogs 2, Assassin's Creed Origins oraz GTA V włączenie DLM ma prawie tak dobry skutek jak przełączenie procesora w tryb 1/4 lub tryb kompatybilności (w którym SMT jest wyłączone) – 2990WX osiąga wtedy płynność bliską tej, którą osiągają jednolite, mało skomplikowane procesory, takie jak 16-rdzeniowy Threadripper. Przy tym DLM nie wymaga restartu, tak jak dwa alternatywne rozwiązania. Niechlubnym wyjątkiem wśród gier są te z serii Total War Warhammer – tu trzeba przełączyć liczbę wątków z automatycznie dobieranej na 16 lub mniej, żeby płynność rozgrywki przekroczyła 30 kl./sek. (to samo trzeba zrobić na megawątkowych procesorach Skylake X).

Zestaw testowy i procedura

W testach wydajności w grach użyliśmy systemu i sterowników w następujących wersjach:

Windows 10 (kompilacji 1803)
Nvidia GeForce 416.16.

We wszystkich testach wykorzystujemy pamięć o najszybszym obsługiwanym przez producenta taktowaniu. To oznacza następujące częstotliwości taktowania i opóźnienia:

procesory Ryzen i Ryzen Threadripper pierwszej generacji – DDR-2666 CL16 16-16-36 1N
procesory Ryzen i Ryzen Threadripper drugiej generacji (Ryzen 2000) – DDR-2933 CL16 16-16-36 1N
procesory Intel Core dziewiątej i ósmej generacji (sześciordzeniowe) – DDR-2666 CL16 16-16-36 1N
procesory Intel Core siódmej i ósmej generacji (czterordzeniowe) – DDR-2400 CL16 16-16-36 1N.
procesory Intela do podstawki LGA2066 – DDR-2666 CL16 16-16-36 1N.

Wszystkie testy w ustawieniach fabrycznych wykonaliśmy przy takich parametrach, jakie określił producent procesora. Tryb turbo działał wyłącznie w ramach ograniczeń producenta procesora – różne „polepszacze” turbo zwiększające limity prądu lub mnożniki turbo powyżej fabrycznych ustawień były wyłączone. Chodzi tu o dostępne na wybranych płytach funkcje: Enhanced Turbo, Enhanced Boost, Multicore Enhancement itp.

Wszystkie testy wykonaliśmy z zastosowaniem układu chłodzenia cieczą z chłodnicą w rozmiarze 240 mm.

	Sprzęt	Dostawca
Płyta główna TR4	Asus ROG Zenith Extreme	www.amd.com
Płyta główna LGA2066	Asus Rampage VI Extreme	www.asus.com
Płyta główna LGA1151 (Coffee Lake, Coffee Lake R)	Asus Maximus XI Extreme	www.asus.com
Płyta główna AM4	Asus Crosshair VI Extreme UEFI 6003	www.asus.com
Karta graficzna	Zotac GeForce GTX 1080 AMP! Extreme	www.zotac.com
Pamięć DDR4	G.Skill TridentZ DDR-3600 4 × 8 GB F4-3600C16Q-32GTZR	własna
Nośniki SSD	2 × SSD Crucial M500 960 GB	www.crucial.com
Zestaw chłodzenia cieczą	SilentiumPC Navis Pro 240	www.silentiumpc.com
Zasilacz	Enermax Platimax 850 W	www.enermax.pl

Testy profesjonalne – renderowanie

V-Ray

Blender 2.79

Test renderowania dużej sceny przeprowadziliśmy z wykorzystaniem projektu Gooseberry z kolekcji przykładowych projektów na oficjalnej stronie Blendera.

Test renderowania małej sceny to ten sam benchmark, którego użyliśmy w poprzednich artykułach.

Corona

Corona to popularny renderer dostępny jako wtyczka do 3ds Maxa, Cinema 4D, a także jako samodzielne oprogramowanie i w postaci serwera umożliwiającego rozdzielenie zadań pomiędzy wiele komputerów.

Cinebench

Gdzie jest test w Cinebenchu? Postanowiliśmy z niego zrezygnować z powodów wyjaśnionych we wcześniejszym artykule. Czytelnik, który lubi czerpać informacje ze źródła, powinien sobie poradzić.

Testy profesjonalne – obróbka i kodowanie wideo

Adobe Premiere Pro

Przeprowadziliśmy dwa warianty testu w Premiere Pro. W pierwszym największe znaczenie ma kodowanie filmu 4K o małej głębi kolorów z minimalną obróbką (tylko montaż, bez korekcji kolorów i zaawansowanych efektów).

Drugi wariant testu obejmuje rozbudowany projekt z mniej więcej 48 GB plików źródłowych w rozdzielczości 4K nagranych z krzywą tonalną S-Log. Materiały są poddawane korekcji kolorów, stabilizacji i innym efektom, a na koniec eksportowane jednocześnie do dwóch plików H.264 o różnych parametrach kodowania i różnej przepływności.

Jak pokazuje ten przykład, nawet problemy bardzo łatwe do zrównoleglenia, takie jak kodowanie wideo, nie skalują się łatwo powyżej 12–16 wątków. Żeby osiągnąć największą korzyść z wykorzystania wielordzeniowych maszyn o niespójnej architekturze, trzeba po prostu użyć więcej danych.

Można też wykonać bardziej złożone obliczenia na zbliżonej ilości danych. Jako ciekawostkę pokażemy czas eksportowania filmu złożonego z czterech plików źródłowych pochodzących z kamery RED. Tego rodzaju kamery nagrywają obraz w surowej postaci podobnej do plików RAW w fotografii; eksportowanie filmu to nie tylko kodowanie wideo do innego formatu, ale również demozaikowanie (ang. debayering) i inne efekty.

Pominąwszy niekorzystne dla procesora Intela porównanie, można się przekonać, że pewne problemy w dziedzinie wideo skalują się satysfakcjonująco powyżej 32 wątków. W tym teście 2990WX był przez mniej więcej połowę czasu zajęty w 50%, a przez połowę – w 100%.

Kodowanie wideo – x264

Kodowanie wideo – H.265 (Handbrake)

Testy profesjonalne – Adobe After Effects, Adobe Photoshop

Adobe After Effects CC 2019

Adobe Photoshop CC 2019

Testy biurowe – Chrome, JavaScript, 7-Zip

Dodatkowe testy

OpenFOAM, XiFoam

Symulacja przepływu cieczy to jedno z zastosowań metody elementów skończonych (MES) – techniki matematycznej pozwalającej szybko otrzymać przybliżone rozwiązanie układu równań różniczkowych. MES jest podstawą symulacji fizycznych związanych z wytrzymałością materiałów i konstrukcji, przepływem cieczy i gazów, aerodynamiką, kinematyką maszyn. To podstawowa technika matematycznego modelowania w mechanice. Test symulacji przepływu cieczy wykonujemy w OpenFOAM – otwartoźródłowym pakiecie oprogramowania do modelowania i symulacji. To najpopularniejsza opcja alternatywna do płatnych zestawów oprogramowania, takich jak: Solidworks, PTC Creo, ANSYS Fluent.

W tym teście symulujemy spalanie gazu w zwężającej się dyszy (znany eksperyment R. Pitza i J. Daily'ego z 1983 roku, popularny jako tutorial do OpenFOAM) za pomocą solvera XiFoam. Ten test wykorzystuje ok. 7 GB pamięci operacyjnej i składa się z trzech etapów. Dwa pierwsze trwają kilkadziesiąt sekund i są jednowątkowe. Główną, najdłużej trwającą część symulacji można rozłożyć nawet na 64 wątki.

Duża symulacja w OpenFOAM wymaga oczywiście dużej mocy obliczeniowej, ale przede wszystkim zyskuje bardzo na dużej przepustowości pamięci operacyjnej. Procesory z czterokanałowym kontrolerem RAM-u są znacznie szybsze od tych z dwukanałowym, nawet jeśli nie mają znacznie więcej rdzeni.

Szachy – Stockfish 8

W teście w silniku szachowym pozwalamy maszynie wykonać optymalny, jej zdaniem, ruch w daleko posuniętej partii. Ten test trwa około kilkudziesięciu sekund, a czas trwania jest tylko częściowo zależny od mocy obliczeniowej procesora. Przez dużą część czasu trwania testu procesor może wykorzystywać maksymalny pułap trybu turbo (dotyczy to głównie układów Intela). Wyniki reprezentują wydajność procesorów w krótkich, intensywnych zadaniach.

Z pomocą czytelnika przygotowujemy nowy test, reprezentujący inną stronę komputerowych szachów. Będzie o wiele dłuższy niż przedział czasowy najszybszego trybu turbo w procesorach Intela i powinien reprezentować wydajność maszyn w stanie równowagi termicznej i energetycznej. Mamy nadzieję, że będziemy mogli go przedstawić już w następnym artykule (również uwzględniającym Threadrippery drugiej generacji).

Podsumowanie

Dwa niższe modele Threadripperów drugiej generacji, 2970WX i 2920X, są dość drogie w porównaniu z Threadripperami pierwszej generacji. Modele 1950X i 1920X pozostają atrakcyjne ze względu na bardzo obniżone ceny, a seria WX zapewnia wydajność na poziomie do tej pory niedostępnym w jednoprocesorowej maszynie. Nawet jeśli nowe Threadrippery nie przekonają zbyt wielu nabywców, to są pewnym utwierdzeniem pozycji platformy TR4. Choć nawet najtańszy pecet z Threadripperem jest dość drogi, rozpiętość cenowa i wydajnościowa tej platformy jest bardzo duża. Można również bardzo elastycznie zaplanować modernizację swojej wielkoobliczeniowej maszyny: w przyszłości czeka nas jeszcze jedna generacja Threadripperów, prawdopodobnie zbudowana w architekturze Zen 2 i o jeszcze większej wydajności wielowątkowej. Przed inwestycją może kogoś powstrzymywać tylko perspektywa PCI-E 4.0, które będzie prawdopodobnie dostępne wyłącznie na nowych płytach głównych – ale to perspektywa dalsza niż rok. Także kart graficznych czy akceleratorów obliczeniowych do nieserwerowego użytku z PCI-E 4.0 nie spodziewamy się prędzej.

Ryzen Threadripper 2970WX

Threadripper 2970WX nie jest najszybszy w zastosowaniach najbardziej wielowątkowych ani w małowątkowych zastosowaniach związanych z produktywnością, ale może być dobrym środkiem dla tych profesjonalistów, którzy nie wykorzystują zbyt dużo megawątkowego oprogramowania. Tryb DLM „ratuje” go przed pozostaniem zbyt daleko w tyle za Threadripperem 2950X lub procesorami Skylake X. Ponieważ limit mocy jest taki sam jak w 32-rdzeniowym modelu, 2970WX może być w niektórych przypadkach wydajniejszy od 2990WX, bo tryb turbo pozwoli mu na bardziej agresywne przyspieszenie przy wielowątkowym obciążeniu.

AMD Ryzen Threadripper 2970WX

Zalety	Wady
bezprecedensowa wydajność wielowątkowa	nieoptymalna makroarchitektura – tylko tryb NUMA
60 linii PCI-E
obsługa pamięci ECC
łatwość podkręcania
kompatybilność ze wszystkimi płytami TR4

Do testów dostarczył: AMD

Cena w dniu publikacji: ok. 5800 zł

Ryzen Threadripper 2920X

Threadripper 2920X to bardzo dobry procesor. Niestety, jest też bardzo drogi, nieproporcjonalnie droższy od 1920X z poprzedniej generacji. Nawet dziś bardziej opłaca się kupić wcześniejszy model. Różnicę w cenie można zainwestować w lepszą płytę główną, SSD podłączony przez PCI Express albo akcelerator obliczeniowy (profesjonalną kartę graficzną).

AMD Ryzen Threadripper 2920X

Zalety	Wady
bezprecedensowa wydajność wielowątkowa	bardzo drogi w porównaniu z Threadripperem 1920X
60 linii PCI-E
obsługa pamięci ECC
kompatybilność ze wszystkimi płytami TR4