AMD Phenom - coraz ciekawiej!

Nazwy i podstawki

Jak juz napisaliśmy na wstępie, nowy procesor AMD otrzymał nazwę handlową Phenom. Pod taka nazwą będzie występował nie tylko układ czterordzeniowy, lecz także jego dwurdzeniowa odmiana.

Będziemy więc mieli Phenoma X4 oraz dwurdzeniowego Phenoma X2, obydwa z pamięcią cache trzeciego poziomu. Athlon 64 X2 i jednordzeniowy Sempron prawdopodobnie z czasem (przy przejściu na wymiar technologiczny 45 nm) będą migrować do jądra K10, ale pozostaną pod dawnymi nazwami. Za to wraz z nową nazwą mają zniknąć „model numbers” ze znakiem „+”, a ich miejsce zajmie... częstotliwość zegara, podawana w megahercach. W nazewnictwie procesorów serwerowych nie będzie zmian, Barcelona stanie się kolejnym Opteronem, opatrzonym odpowiednim numerem. I nic dziwnego – ten procesor ma pracować w każdej maszynie wyposażonej w podstawkę Socket 1207.

Jest to szczególna gratka dla posiadaczy dwuprocesorowych serwerów z Opteronami Socket 1207, otwiera bowiem ścieżkę upgrade’u do maszyn z ośmioma rdzeniami obliczeniowymi, a więc kwalifikującej się już do segmentu enterprise/high performance. Co jednak z użytkownikami maszyn klasy desktop, z podstawką Socket AM2?

Phenomy będą potrzebowały podstawki Socket AM2+, jednak nie będzie ona koniecznością – kosztem utraty niektórych funkcji z zakresu oszczędzania energii, a także wolniejszego HyperTransportu, będzie ich można używać w już posiadanych płytach głównych z podstawką Socket AM2. Zgodność jest zresztą dwustronna – do płyty z gniazdem Socket AM2+ można bez zahamowań zastosować dzisiejszego Athlona 64 X2.

Wsteczna zgodność podstawek jest tym bardziej budująca, że jak na razie nie mamy żadnych informacji o terminach premier chipsetów obsługujących AM2+ i HyperTransport 3.0, nie należy więc się obawiać, że pojawi się procesor, którego nie będzie w co włożyć.

Różne formy wyższości

AMD bardzo intensywnie eksponuje przewagę swoich rozwiązań nad produktami konkurencji w zakresie sprzętowego wspomagania wirtualizacji. Niektóre z nich są naprawdę atrakcyjne, jak choćby DEV.

Device Exclusion Vector ogranicza dostęp do pamięci, uniemożliwiając niepowołanym maszynom wirtualnym dostęp do tych obszarów pamięci, do których nie mają uprawnień. Sprzętowe rozwiązanie jest możliwe dzięki zintegrowanemu z procesorem kontrolerowi pamięci – w przypadku innych architektur konieczne są rozwiązanie programowe.

Niektóre z form okazywania wyższości nad konkurencją na pierwszy rzut oka wydaja się już wyeksploatowane, bo o przewadze zintegrowanego kontrolera pamięci i natywnej wielordzeniowości wszyscy już wiedzą. Jednak, jak zwykle, „diabeł tkwi w szczegółach”. Tym razem „diabłem” jest tagowanie TLB.

TLB, czyli Translation Look-ahead Buffer, zawiera przeliczenia adresów wirtualnych na fizyczne, szczególnie dotyczy to zawartości pamięci cache. W rozwiązaniu AMD zapisy w TLB są opatrywane dodatkowymi znacznikami, przypisującymi je do konkretnych maszyn wirtualnych. Pozwala to na rozróżnienie, podczas przełączania maszyn wirtualnych, do której z VM należą dane wpisy TLB. W intelowskim VT bufor TLB musi zostać opróżniony przy każdorazowym przełączeniu maszyn wirtualnych. Niby drobiazg, ale mający swój wpływ na wydajność.

No właśnie – wydajność!

Z punktu widzenia indywidualnego użytkownika wirtualizacja to pieśń odległej przyszłości, bo jeszcze daleko do rozwiązania problemów wirtualizacji urządzeń wejścia/wyjścia. Nie interesuje go również przesadnie energooszczędność – najwyżej założy się lepszy cooler. Najważniejsza jest wydajność! A pod tym wzgledem K10 nie przyniesie rozczarowania.

W benchmarku SPECint_rate2006 czterordzeniowy K10 uzyskuje 21% przewagi nad podobnie taktowanym Xeonem „Clovertown” 5355. To sporo, ale prawdziwa rewelacja dopiero się szykuje...

W testach SPECfp_rate 2006 K10 uzyskuje nawet 50% przewagi nad podobnie taktowanym układem „Clovertown”. To już naprawdę bardzo dużo! Ale nie rozpędzajmy się z entuzjazmem – to są porównania „zegar w zegar”. Tymczasem zarówno czterordzeniowy Opteron, jak i Phenom, debiutują z maksymalnymi zegarami na poziomie 2,5-2,66 GHz. Nie dlatego, by nie mogły pracować szybciej – przyczyną ograniczenia jest konieczność zachowania mocy TDP w granicach 95 W. Tymczasem najszybsze układy konkurencji pracują z zegarem 3 GHz. Te kilkanaście procent różnicy częstotliwości zegarów w pewnym stopniu niweluje przewagę K10, która jednak pozostanie niezachwiana, przynajmniej do chwili debiutu Penryna. Ale znając już obecnie jego architekturę możemy powiedzieć, że o ile nie nastąpi znaczne przyspieszenie częstotliwości zegara tego procesora, to co najwyżej wyrówna on poziom wydajności do układów AMD.

Jak to było możliwe?

W jaki sposób udało się architekturę Hammer tak usprawnić, by nie tylko mogła rywalizować, ale wręcz pokonała pod względem wydajności arcydzieło, jakim wydawał się do niedawna intelowski Core 2 Duo? W makroarchitekturze – wiadomo, że jądro K10 otrzymało drugą jednostkę zmiennoprzecinkową, umożliwiającą poszerzenie operacji SIMD (SSE) do 128 bitów. To jednak nie wyjaśnia w żaden sposób, dlaczego K10 jest wydajniejsze od Core 2 Duo w operacjach logicznych i całkowitoliczbowych. Tymczasem wyjaśnienie jest stosunkowo proste. Jądro K10 dysponuje dwoma dedykowanymi schedulerami – osobnym dla operacji ALU i osobnym, 36-drogowym dla operacji FP, tymczasem Conroe musi sobie radzić z jednym, zaledwie 32-drogowym schedulerem.

Wystarczyło więc poszerzenie szyn dostępu do pamięci cache i kontrolera pamięci RAM, by w operacjach SSE uzyskać przewagę dochodzącą do 60% przy pracy z jednakowymi zegarami. To samo poszerzenie szyn pozwoliło również na zwiększenie wydajności operacji arytmetyczno-logicznych, wystarczająco duże, by zapewniło przewagę w benchmarkach. Co ciekawe, choć logiczne w kontekście konstrukcji schedulerów, przewaga K10 w operacjach logicznych i całkowitoliczbowych nad Core 2 jest tym większa, im większy jest w wykonywanym kodzie udział operacji SSE.

Powołujemy się w niniejszym tekście na wyniki i oszacowania dostarczone przez AMD. Wielu Czytelników może więc postawić zarzut, że wyniki te są marketingowo zawyżone. Sam nie oparłbym się takiemu podejrzeniu, gdyby nie potwierdzenie ze strony... samego Intela. Korporacja sprawia wrażenie wyraźnie zaniepokojonej nadchodzącą konkurencją, chociaż pokłada duże nadzieje w Penrynie, który ponoć ma się rozprawić z K10.

Kiedy wreszcie na rynku?

AMD nie podaje żadnych wiążących informacji, na podstawie których można byłoby określić potencjalne daty premier nowych procesorów. Jednak biorąc pod uwagę rozmaite czynniki biznesowo-finansowe, czterordzeniowe Opterony „Barcelona” powinniśmy ujrzeć na rynku na początku drugiego półrocza, czyli najpóźniej w lipcu. Na czterordzeniowe Phenomy X4 poczekamy zapewne przynajmniej do września, zaś najdłużej, bo do początków przyszłego roku, przyjdzie nam czekać na dwurdzeniowe Phenomy X2. Możliwy jest również odwrotny scenariusz – po debiucie Opterona „Barcelona” pojawią się najpierw dwurdzeniowe Phenomy X2. Takie posunięcie byłoby logiczne – obecnie układy Core 2 Duo nie mają praktycznie konkurencji...

Pozostaje nam jedynie cierpliwie czekać, choć teraz, kiedy wiemy już sporo więcej o tym, na co czekamy, czekanie staje się trudniejsze i bardziej męczące. Miejmy nadzieję, że AMD nie każe nam czekać za długo...

Ryszard Sobkowski

Źródło:

Ryszard Sobkowski