AMD A8-7600

AMD nie ukrywa, że będąc mniejszym z dwóch producentów procesorów x86, nie toczy równej walki w wyścigu o wydajność. Zamiast tego musi stawiać na innowacje: od dłuższego czasu kolejne posunięcia technologiczne AMD są często śmiałe, ale i ryzykowne. Architektury procesorów i kart graficznych tego producenta od kilku generacji zmierzają w kierunku zunifikowania ich w jednym czipie. Kolejne etapy tej unifikacji pojawiają się w sklepach od 3 lat, ten jednak jest wyjątkowy. Oczywiście, nie przynosi końca tej idei, ale jest pewnym kamieniem milowym w rozwoju układów heterogenicznych.

Test Kaveri z samodzielną kartą graficzną

Trochę rewolucji...

Prezentację Kaveri na konferencji CES i w materiałach prasowych rozpoczęto słowami „Witajcie w rewolucji”. Każdy nowy czip to zawsze połączenie nowych i sprawdzonych rozwiązań; w Kaveri najbardziej rewolucyjnym elementem jest obsługa HSA.

HSA to sposób konstruowania sprzętu komputerowego, w którym procesory każdego rodzaju wchodzące w skład jednego czipa są równorzędne: mają równy dostęp do wspólnej pamięci operacyjnej oraz mogą sobie nawzajem przekazywać zadania. Na razie mamy na myśli rdzenie procesora x86 oraz układ graficzny; w przyszłości będą mogły do nich dołączyć inne typy maszyn obliczeniowych.

To znaczące odejście od tradycyjnych systemów, w których centralny procesor (CPU) jest „szefem” układu, procesor graficzny ma własny obszar pamięci, a komunikacja między nimi wiąże się z tłumaczeniem adresów i przekazywaniem obszarów pamięci pod kontrolę to jednego, to drugiego procesora.

Drugą największą innowacją w nowych APU jest wbudowany układ graficzny. Dotychczas wbudowane GPU były wykonane w starszej architekturze niż ta, którą stosowano w tym samym czasie w najwydajniejszych kartach graficznych AMD. Kompatybilność z HSA wymusiła bezkompromisowe podejście: w Kaveri wbudowano układ graficzny obecnej generacji, tak samo funkcjonalny jak Radeony serii R9 290. Ponadto na jednostki obliczeniowe GPU poświęcono większą niż kiedykolwiek część układu scalonego, dzięki czemu nowe APU mają być wyraźnie wydajniejsze od poprzednich w zastosowaniach graficznych.

Drugi rodzaj jednostek obliczeniowych, czyli rdzenie x86, również przeszedł ewolucję. Kaveri wykorzystuje mikroarchitekturę Steamroller: kolejne wcielenie modułowej architektury x86, w której dwa rdzenie mają część wspólnych jednostek wykonawczych i są złączone w nierozdzielny blok funkcjonalny. Poprzednie etapy rozwoju tej architektury znamy pod nazwami Bulldozer (procesory FX-8100) i Piledriver (APU Trinity, Richland i procesory FX-8300/FX-9000). Usprawnienia w mikroarchitekturze mają pozwolić rdzeniom Steamroller na wykonywanie większej liczby instrukcji w tej samej liczbie cykli zegara: średnio o 10%, a maksymalnie o 20%.

Ostatnią dużą zmianą jest nowa technika produkcji. Kaveri będzie wytwarzane w wymiarze 28-nanometrowym w fabrykach GlobalFoundries – wydaje się, że to niewielki postęp w stosunku do 32-nanometrowych APU Richland, ale z punktu widzenia inżynierii zmiana jest zasadnicza, o czym zaraz powiemy.

Więcej o szczegółach technicznych piszemy na dalszych stronach.

Kaveri – dostępne modele

Rodzina Kaveri startuje z trzema modelami do komputerów klasy desktop: A8-7600, A10-7700K oraz A10-7850K. Wszystkie wykorzystują gniazdo FM2+ (nie są kompatybilne z płytami głównymi FM2).

Pierwszy układ zgodny z HSA

Rewolucja w Kaveri nie dotyczy bezpośrednio ani rdzeni x86, ani układu graficznego: chodzi o sposób ich zintegrowania. Zgodność z HSA zapewniają dwie techniki: hUMA i hQ.

O hUMA, jednolitej przestrzeni adresowej, pisaliśmy już w osobnej publikacji: „Zunifikowana pamięć dla CPU i GPU”. Dość powiedzieć, że APU z hUMA ma tylko jedną pulę pamięci operacyjnej, zarówno fizycznie (CPU i GPU są podłączone do jednego kontrolera pamięci), jak i logicznie (wszystkie koprocesory widzą tę samą przestrzeń adresową). hUMA likwiduje konieczność kopiowania danych między dwoma obszarami pamięci; eliminuje też konieczność tłumaczenia adresów, jeśli dane są przekazywane bez kopiowania pod kontrolę innego koprocesora. Głównym celem ujednolicenia przestrzeni adresowej jest ułatwienie przekazywania zadań między koprocesorami. Programista może po prostu przekazać wskaźnik do pamięci innej procedurze i uruchomić ją na innym koprocesorze.

Drugą technikę, hQ, również już opisywaliśmy („AMD przedstawia hQ: kolejny etap realizacji architektury HSA”). Zasadza się ona na umożliwieniu równorzędnej komunikacji między wszystkimi koprocesorami, w tym przypadku między CPU a GPU. Używając specjalnego protokołu, wszystkie maszyny obliczeniowe wchodzące w skład APU mogą przekazywać sobie nawzajem zadania. Do tej pory procesor x86 był uprzywilejowanym, nadrzędnym elementem, a wydawanie mu „zleceń na obliczenia” przez GPU było utrudnione.

Architektura HSA nie dodaje do APU żadnych jednostek wykonawczych, żadnych nowych maszyn obliczeniowych. Nie zwiększa zatem maksymalnej teoretycznej wydajności obliczeniowej całego układu. Ma w zamyśle zwiększać praktyczną wydajność dzięki temu, że do każdego zadania zostanie wykorzystana ta maszyna obliczeniowa, która jest w nim najsprawniejsza. W dotychczasowych modelach programowania używanie różnych procesorów w ramach jednego programu jest utrudnione. Nie dość, że kod staje się znacznie bardziej skomplikowany, to przekazywanie danych i instrukcji pomiędzy procesorami pochłania czas i energię. HSA nie zwiększy zatem wydajności jakichś technik programistycznych. Raczej spowoduje, że niektóre techniki, które wcześniej trzeba było odrzucić, staną się opłacalne. Do tej pory, żeby opłacało się wykonać dodatkową pracę podczas programowania i marnować czas na transfery danych, zysk z przekazania pracy GPU musiał być kolosalny. Niewiele jest takich zastosowań; głównie dotyczą obróbki ogromnych ilości danych w centrach danych. Za to w systemie zgodnym z HSA przekazanie jakiejś procedury GPU powinno być opłacalne nawet wtedy, jeśli potencjalny zysk jest stosunkowo niewielki. Oczywiście, korzyści z przyspieszenia wielu małych operacji mogą się skumulować i zapewnić znaczne przyspieszenie.

HSA w praktyce

Żeby móc uruchamiać programy zgodne z HSA, trzeba mieć sprzęt i sterownik zapewniające odpowiednią funkcjonalność. W świecie windowsowym na razie dostępne są sterowniki do Windows 7 i Windows 8.1 (obsługa Windows 8 na razie nie jest planowana). Jak się dowiedzieliśmy od pracujących nad sterownikiem HSA inżynierów, wszystkie główne systemy operacyjne są równie dobrze przystosowane do współpracy z tym sprzętem i modelem programowania. Sterowniki HSA do Linuxa i FreeBSD są już podobno gotowe, nie ma też problemów we współpracy z Xen.

Do osiągnięcia jakichkolwiek korzyści użytkowych (nie zaś programistycznych) z zastosowania HSA potrzeba oprogramowania przygotowanego z myślą o tej technice. AMD nieprzypadkowo wprowadza APU Kaveri do serwerów niemal w tym samym czasie. Świat wielkich danych i wielkich obliczeń jest bardziej skłonny do tego, by dostosować swoje oprogramowanie do sprzętu, nie martwiąc się o kompatybilność z innymi platformami. Przypuszczamy, że techniki HSA zostaną zaadaptowane najpierw tam, a dopiero po czasie zaczną trafiać pod strzechy w programach użytkowych.

AMD wskazało dwa przykłady narzędzi, których testowe wersje już teraz wykorzystują HSA: to Corel AfterShot Pro (obróbka zdjęć) i przygotowany przez AMD dekoder JPEG. Ten drugi przyspiesza dekodowanie i wyświetlanie plików JPEG, szczególnie tych o ogromnej rozdzielczości; ma być dołączany do nadchodzących wydań sterowników Catalyst. Ogromne znaczenie dla środowiska HSA będzie miało dziewiąte wydanie Javy, zaplanowane na 2015 rok.

Moduły Steamroller

Inżynierowie w trzecim wcieleniu modułowej architektury K15 chcieli osiągnąć przede wszystkim dwa cele. Steamroller miał mieć większą wydajność pojedynczego wątku, a przy tym zapewniać lepszy stosunek wydajności do poboru energii.

Oba cele często się osiąga tymi samymi środkami, bo przecież każda funkcja poprawiająca wydajność siłą rzeczy poprawia energooszczędność. Największą zmianą jest dodanie drugiego dekodera rozkazów: zamiast jednego, karmiącego instrukcjami oba rdzenie wraz z ich wspólną częścią, każdy rdzeń ma teraz własny. To umożliwia zdekodowanie znacznie większej liczby instrukcji w jednym cyklu zegara: ten element potoku wykonawczego nie powinien być wąskim gardłem w żadnych warunkach.

Żeby mieć co dekodować, trzeba to wcześniej pobrać z pamięci, należało więc usprawnić poprzednie etapy wykonywania kodu. Powiększono zatem pamięć podręczną kodu (L1i) o połowę: z 64 kB do 96 kB na moduł (jest ona wspólna dla obu rdzeni, jak cały front-end). Pamięć L1i dostała też nowy port dostępu i jest teraz trójdrożna, co odpowiada liczbie schedulerów, którym trzeba podać odczytane z L1i informacje.

Pewne (jak zwykle sekretne) usprawnienia przeszedł układ przewidywania skoków; obok algorytmu predykcji prawdopodobnie zmieniła się także długość ciągu kodu, jaki może on śledzić. Dokumentacja mówi o zmniejszeniu o 20% liczby źle przewidzianych skoków (oczywiście, trzeba sobie zdawać sprawę z tego, że to redukcja i tak już bardzo małej wielkości). Często powtarzające się ciągi mikrooperacji mogą być przechowywane w niewielkim buforze, skąd mogą zostać ponownie pobrane bez zaprzęgania do pracy całego dekodera. Podobny mechanizm sprawdza się w procesorach Intela od czasu architektury Sandy Bridge.

Same jednostki wykonawcze nie zmieniły się zasadniczo. Zestaw instrukcji Steamroller odziedziczył po Piledriverze. Mamy więc obsługę wszystkich nowoczesnych zestawów instrukcji, łącznie z AVX i FMA3. Względem procesorów z rodziny Haswell brakuje tylko instrukcji AVX2 i sprzętowego generatora liczb pseudolosowych. Wspólny dla obu rdzeni blok zmiennoprzecinkowy został nieco odchudzony z obwodów, które i tak nie mogły być używane równocześnie z pozostałymi; to powinno zmniejszyć jego powierzchnię i prądożerność bez wpływu na wydajność i optymalizację kodu.

Zapisywanie wyników wykonanych instrukcji w pamięci podręcznej L1d zostało podobno znacznie usprawnione, choć nie ujawniono w jaki sposób. Również pamięć L2 przeszła lifting, głównie energetyczny. Moduł Steamroller może w zależności od obciążenia wyłączać pamięć L2 po ćwiartce (0,5 MB) na raz, kiedy cała pojemność nie jest potrzebna.

Jednostki obliczeniowe GCN

Jak wspomnieliśmy, część APU przystosowana do obliczeń równoległych jest zbudowana z jednostek GCN w ich usprawnionej wersji, równie funkcjonalnej co w Radeonach Hawaii. Tak zwana architektura GCN 1.1 (numer wersji nie jest oficjalną nazwą) to kilka dodatkowych instrukcji i przeprojektowane jednostki ACE – kolejki zadań obliczeniowych, przydatne w niegraficznych zastosowaniach GPU. Pierwsze procesory w architekturze GCN mogły mieć maksymalnie dwie ACE, niezależnie od liczby procesorów strumieniowych, co było ograniczeniem dla wydajniejszych GPU. Nowa wersja GCN, zastosowana w Bonaire (HD 7790), Hawaii (R9 290X) i PlayStation 4, dopuszcza więcej ACE. W czipie GCN 1.1 na tyle samo procesorów strumieniowych może (ale nie musi) przypadać więcej ACE, co pozwala w trakcie projektowania układów mniej lub bardziej się skoncentrować na wydajności obliczeniowej.

W Kaveri może być maksymalnie osiem jednostek GCN (po 64 procesory strumieniowe w każdej), jest też tyle samo ACE (proporcję 1 : 1 zastosowano też w PlayStation 4). Same jednostki GCN są niemal identyczne jak w dużych Radeonach – różnią się tylko nowym trybem adresowania pamięci, koniecznym do obsługi jednolitej przestrzeni adresowej. Kaveri obsługuje, oczywiście, Mantle i DirectX 11.2.

W APU zintegrowano, rzecz jasna, całą resztę nowoczesnego układu graficznego. Układy kodowania (VCA) i dekodowania (UVD) wideo zostały unowocześnione i obsługują więcej formatów. Kaveri nie ma problemów z odtwarzaniem wideo w formacie 4K zakodowanego kodekiem H.265 (HEVC).

Nie zabrakło innych usprawnień rodem z najnowszych Radeonów. Wbudowany procesor dźwięku zapewnia obsługę techniki TrueAudio. Jednostka XDMA pomaga w transferach danych między dwoma procesorami graficznymi przy użyciu łącza PCI Express. W samodzielnych kartach graficznych ta technika pozwoliła zapewnić działanie CrossFire bez użycia mostków łączących karty. Konfiguracje Dual Graphics złożone z układu wbudowanego w APU i oddzielnej karty graficznej o podobnej wydajności nigdy nie miały możliwości połączenia mostkiem; nigdy też nie działały zbyt dobrze. XDMA może pomóc ulepszyć taką odmianę CrossFire, ale zapewne tylko w razie połączenia Kaveri z inną kartą z XDMA. Niestety, na razie tę technikę można spotkać tylko w procesorach Hawaii, bijących Kaveri na głowę wydajnością, więc dokładną ocenę tego rozwiązania musimy odłożyć na później.

Proces technologiczny 28 nm

Układy Kaveri są produkowane w procesie 28-nanometrowym w fabrykach GlobalFoundries. Wydaje się, że jest tylko niewiele mniejszy od 32-nanometrowego, stosowanego w produkcji Trinity i Richlanda, ale to nie nanometry są najważniejsze.

Przede wszystkim trzeba pamiętać, że najczęściej stosowane nazwy procesów technologicznych mogą służyć tylko do identyfikacji konkretnego procesu spośród kilku oferowanych przez jedną fabrykę. W rzeczywistości liczba nanometrów używana jako nazwa oznacza raczej klasę procesu niż konkretny wymiar jakiegokolwiek elementu gotowego układu. Reguły projektowe, czas przełączania tranzystora, upływ prądu czy gęstość upakowania tranzystorów zależą od dziesiątek czynników, a wymiar krytyczny podawany w nanometrach jest tylko jednym z nich. Dlatego procesy technologiczne o identycznym wymiarze krytycznym, ale stosowane w dwóch różnych firmach mogą się znacząco różnić.

Proces technologiczny, w którym jest wykonywane Kaveri, należy do klasy procesów „bulk”, co znaczy, że tranzystory spoczywają bezpośrednio na krzemowym podłożu. Takie procesy są powszechnie stosowane przez Intela, TSMC i Samsunga w produkcji ich najnowocześniejszych układów. Od lat AMD używało procesów SOI, w których tranzystory spoczywają na cienkiej warstwie krzemu oddzielonej od reszty podłoża warstwą izolującego tlenku krzemu.

Procesy SOI były stosowane ze względu na lepszą wydajność. Produkcja wafla jest droższa, bo trzeba na nim wytworzyć dwie dodatkowe warstwy; za to obszar półprzewodnika między elektrodami tranzystora jest ograniczony, co powoduje, że mniej prądu upływa do podłoża oraz między źródłem a drenem, kiedy tranzystor jest wyłączony. Jeśli straty są mniejsze, to można przyłożyć wyższe napięcie i osiągnąć wyższe taktowanie. Z czasem zmieniły się użyte techniki, domieszki, wymiar krytyczny – i przewaga SOI zmalała. W przyszłości GlobalFoundries i inni producenci półprzewodników będą wykorzystywać tranzystory z trójstronną bramką (stosowane przez Intela w procesach 22- i 14-nanometrowym), co ma główną zaletę SOI: pozwala zminimalizować obszar zubożony.

Choć jest to podobna technika, w jakiej produkuje się procesory graficzne i małe APU z rdzeniami Jaguar, nie wiadomo, czy ma to jakieś praktyczne znaczenie. Produkcja małych i dużych APU raczej pozostanie w fabrykach, w których odbywa się dzisiaj, więc podobieństwo technologiczne nie sprawi, że przeprojektowanie czipów będzie łatwiejsze.

Jak wiemy, układ scalony potrzebuje do działania pewnego minimalnego napięcia, powyżej którego tranzystory będą się przełączać dość szybko i sygnały pozostaną niezakłócone. W miarę zwiększania tego napięcia można też zwiększać taktowanie układu, ale jednocześnie wzrośnie upływ prądu i wydzielanie ciepła. Ciepło zwiększa ruchliwość elektronów, a więc i upływ prądu... i tak w koło. Powyżej pewnej granicy dalsze zwiększanie napięcia zapewnia coraz mniejszy wzrost częstotliwości taktowania, a powoduje coraz większe zużycie energii. Każdy proces technologiczny jest inny i złoty środek między taktowaniem, napięciem i poborem energii wypada w innym miejscu.

Zastosowany do produkcji Kaveri 28-nanometrowy proces bulk ma tę użyteczną strefę częstotliwości taktowania nieco niżej od 32-nanometrowego SOI, stosowanego do produkcji APU Trinity i Richland. To oznacza, że dla niższego kosztu produkcji, gęstszego upakowania tranzystorów i lepszej sprawności energetycznej poświęcono szybkość taktowania: APU Kaveri mają nieco wolniejsze zegary od poprzedniej generacji. Usprawnienia mikroarchitektury powinny w wielu zastosowaniach pokryć różnicę w taktowaniu, co zaraz sprawdzimy.

AMD nie tylko zmieniło proces technologiczny, ale też sortuje teraz procesory w bardziej zaawansowany sposób. Niektóre modele Kaveri mają konfigurowalne TDP: w procesorze są zapisane oddzielne tabele P-stanów dla każdego poziomu TDP. To oznacza, że na przykład A8-7600 można przełączyć w UEFI w tryb 65 W albo 45 W. W tym drugim układ jest wolniej taktowany, ale pobiera mniej prądu. Podobną cechę mają laptopowe procesory Intela z rodzin Ivy Bridge i Haswell. Taka funkcja służy głównie producentom gotowych komputerów, ale przyda się też zaawansowanym użytkownikom: jest to w końcu gotowe, sprzętowe rozwiązanie zastępujące popularny wśród „entuzjastów” undervolting, albo „odkręcanie”, czyli znaczne zmniejszanie napięcia przy takim samym lub niewiele wolniejszym taktowaniu.

Jądro Kaveri

Nowy proces technologiczny pozwolił zmieścić na podobnej powierzchni znacznie więcej jednostek obliczeniowych. Powierzchnia jądra Kaveri to 245 mm², mniej więcej tyle samo, ile ma Trinity/Richland (246 mm²). AMD podało liczbę tranzystorów: 2,41 mld, ale nie znamy rachuby (można liczyć tranzystory fizyczne, na powierzchni krzemu, albo logiczne; często na jeden tranzystor logiczny składa się kilka na krzemie, równolegle połączonych), trudno więc porównać te parametry z parametrami Richlanda.

Rodzina Kaveri będzie się składać na początku z różnych modeli otrzymywanych z jednego krzemowego jądra. Zawiera ono dwa dwurdzeniowe moduły Steamroller i osiem jednostek obliczeniowych GCN, z których część może być wyłączona. Wbudowane są cztery wyjścia obrazu kompatybilne z DisplayPort 1.2 i 16-pasowy kontroler PCI Express 3.0.

Przedstawione przez AMD zdjęcie pozostawia wątpliwości, jakie jeszcze funkcje kryje w sobie jądro Kaveri. Na pytanie o kontroler pamięci przedstawiciele AMD odpowiedzieli, że jest to tradycyjny 128-bitowy kontroler DDR3, ale odmówili odpowiedzi na pytanie, czy w każdej przyszłej wersji Kaveri będzie tylko taki. Kontroler pamięci obsługuje prędkość do DDR-2133 (oficjalnie) i DDR-2400 (po wczytaniu profilu podkręcania, jeśli w komputerze są zainstalowane odpowiednie moduły), ale mnożników jest jeszcze więcej.

Nie ujawniono zbyt wielu informacji na temat funkcji oszczędzania energii. Tryb uśpienia (S3) został ulepszony tak, że Kaveri pobiera w stanie S3 około 25 mW, cztery razy mniej niż Richland. Chcielibyśmy w końcu zobaczyć w desktopowych procesorach tryb turbo dla układu graficznego; tę funkcję prawdopodobnie zarezerwowano dla laptopowych modeli Kaveri.

Testy – gry (Battlefield 4, Far Cry 3, Max Payne 3)

Test Kaveri z samodzielną kartą graficzną

Testy – gry (Cywilizacja V, NFS Rivals, Skyrim, Tomb Raider, Wiedźmin 2)

Test Kaveri z samodzielną kartą graficzną

Testy – gry (Diablo III, FIFA 14, World of Tanks)

Test Kaveri z samodzielną kartą graficzną

Testy – internet (Google Chrome, HTML5)

Test Kaveri z samodzielną kartą graficzną

Testy – obróbka zdjęć

Test Kaveri z samodzielną kartą graficzną

Poniżej zamieszczamy wyniki testu w programie przygotowanym we współpracy z AMD, który świetnie obrazuje teoretyczne możliwości zwiększenia wydajności dzięki HSA:

Testy – obróbka i kompresja wideo (Adobe Premiere Pro, Sony Vegas Pro, x264)

Test Kaveri z samodzielną kartą graficzną

Testy – kompresja plików (WinZIP)

Test Kaveri z samodzielną kartą graficzną

Testy – benchmarki (PCMark)

Test Kaveri z samodzielną kartą graficzną

Testy – pobór energii

Wszystkie testy APU AMD A10-7600, wraz z poborem energii, przeprowadzone zostały na platformie testowej z zasilaczem firmy FSP: Raider RA 550. Jest to w chwili obecnej zasilacz o największej sprawności energetycznej w naszej redakcji.

Test Kaveri z samodzielną kartą graficzną

Podkręcanie

Energooszczędny model A8-7600, który w dodatku ma zablokowany mnożnik, to wyjątkowo zły przykład możliwości podkręcania jednostek Kaveri. Udało się nam podnieść częstotliwość bazową ze 100 MHz do 121 MHz, ale trzeba pamiętać, że odbywa się to (podobnie jak w przypadku FM1 i FM2) kosztem przyspieszenia taktowania PCI Express i portów Serial-ATA. Sztuczka skuteczna w przypadku wcześniejszych APU (BCLK o taktowaniu na poziomie 135 MHz) nie zadziałała, ale przyczyną mogą być wciąż niedopracowane BIOS-y płyt głównych. Na dłuższą metę zwiększanie częstotliwości taktowania do około 120 MHz nie ma sensu, gdyż może ono powodować liczne błędy podczas przesyłania danych do nośnika danych i z nośnika. By realnie móc ocenić zapas mocy Kaveri, musimy poczekać, aż otrzymamy do testów A10-7700K, a najlepiej A10-7850K.

Podsumowanie

Testy modelu A8-7600, co prawda, zakończyliśmy, ale nie jest to koniec naszych badań jednostek Kaveri. W planie mamy, rzecz jasna, przetestowanie szybszych modeli, przede wszystkim A10-7850K, ale też m.in. ocenę wpływu częstotliwości taktowania pamięci operacyjnej na osiągi oraz test wydajności rdzeni x86 Steamroller. Z komentarzy wnioskujemy, że szczególnie interesujące jest to drugie zagadnienie. Mamy dla Was dobre informacje: już tylko godziny zostały do opublikowania stosownego artykułu :)

Tak naprawdę przetestowany przez nas model A8-7600 będzie stanowił raczej środek oferty APU Kaveri (na razie poznaliśmy trzy, a wśród nich A8-7600 jest tym najsłabszym). Wyróżnia się on konfigurowalnym TDP. Otóż w BIOS-ie płyty głównej wartość tego parametru można ustawić na 45 W lub 65 W, wpływając na ilość pobieranej i wydzielanej energii, a tym samym wydajność całego APU. Z naszych obserwacji wynika, że w niższym ustawieniu taktowanie rdzeni spowalnia o 100–300 MHz, a rdzenia graficznego – o mniej więcej 15%. Wydajność? W wyższym ustawieniu A8-7600 osiąga nieco gorsze rezultaty od A10-6800K, który to jest – a raczej był, gdyż niebawem skończą się jego dostawy do sklepów – czołowym przedstawicielem poprzedniej generacji APU, Richland. Trzeba mieć przy tym na względzie to, że TDP A10-6800K wynosi aż 100 W. To rzuca zdecydowanie cieplejsze światło na energooszczędne Kaveri.

A8-7600 kontra Core i3?

Kosztujące 450 zł (cena zalecana przez producenta) A8-7600 to z pewnością najszybsze APU do gier w tym przedziale cenowym. Kaveri zapewnia zadowalającą wydajność w zdecydowanej większości gier w ustawieniach niskich lub średnich w rozdzielczości 1920 × 1080, nawet w Battlefieldzie 4. O takich wynikach w przypadku Core i3 nie ma mowy. Czy w programach użytkowych też radzi sobie tak rewelacyjnie?

Tutaj bardzo dużo zależy od zastosowania oraz użytego oprogramowania. Wyraźnie widać, że w wybranych narzędziach, w których akceleracja GPU działa efektywnie, Kaveri pokazuje pazurki, jednak wciąż jest ich niewiele. (Do tego tematu wrócimy za chwilę). Niestety, A8-7600 przegrywa starcie z tradycyjnym zestawem PC, w którym obok APU/CPU działa samodzielna karta graficzna. Zamieszczona na wykresach konfiguracja składająca się z procesora Intel Pentium G3220 i karty graficznej AMD Radeon HD 7730 dobitnie pokazuje, jak należy budować korzystnie wycenione komputery do gier (i nie tylko). Problem w tym, że taki zestaw nie zmieści się do najmniejszych obudów, w których zwyczajnie nie ma miejsca na samodzielną kartę. Temat ten poruszyliśmy w swoim poradniku dotyczącym budowy małego i wydajnego komputera do gier. Zatem siła APU AMD tkwi głównie w możliwości osadzenia ich w stosunkowo małej obudowie. Pytanie tylko, czy jest to wystarczająco duży rynek zbytu dla AMD?

Małe komputery to niewątpliwie ciekawa koncepcja. Ceny obudów i płyt głównych w formacie ITX zwykle są bardzo rozsądne. Niestety, cena APU w porównaniu z ceną konfiguracji CPU + karta graficzna jest już mało korzystna. W Polsce jednak, gdzie głównym kryterium wyboru jest cena, wciąż zdecydowana większość osób jest gotowa kupić nieco większą obudowę i cieszyć się większą wydajnością za te same pieniądze. Te „trochę większe obudowy” zmieszczą samodzielną kartę graficzną. Może nie taką, jak GeForce GTX Titan czy Radeon R9 290X, ale te jednoslotowe lub krótkie (choćby GeForce'a GTX 760) zwykle da się bezproblemowo zamontować. Dlatego APU firmy AMD muszą mieć jeszcze jeden argument w ręku, a jest nim...

Wspólne adresowanie pamięci dla CPU i GPU

Kaveri to pierwsze APU z obsługą techniki hUMA, która zapewnia mu zgodność z architekturą HSA. Jednak nie chodzi tylko o przerzucenie na GPU części zadań zwykle wykonywanych przez CPU, a o wspólną, jednoczesną pracę różnych jednostek (w tym przypadku rdzeni x86 i GCN) nad jednym zadaniem. Wystarczy spojrzeć na wyniki testów w Corel AfterShot Pro i JPEG Decoder, by się przekonać, na co można liczyć. Prawdę mówiąc, odpowiednia konfiguracja sprzętu i oprogramowania może jeszcze poprawić te wyniki, co mamy nadzieję sprawdzić już niebawem. Jest tylko jeden problem... W zasadzie większość obecnie dostępnych narzędzi wykorzystujących HSA to dema technologiczne lub moduły znanych programów, które wykonują obliczenia raczej niepotrzebne przeciętnemu użytkownikowi komputera. Zadaniem AMD jest przekonanie twórców oprogramowania, by kolejne wersje swoich produktów projektowali właśnie pod kątem HSA. Na szczęście „czerwoni” w tych działaniach nie są osamotnieni, bo w ramach fundacji HSA współpracują z takimi firmami, jak Samsung, ARM, Qualcomm, S3, Oracle, LG. Pytanie, czy i kiedy im się to uda. Odpowiedź jest zarazem decydująca w ocenie opłacalności Kaveri.

Więcej napiszemy o Kaveri już jutro, również o wydajności rdzeni Steamroller!