W materiałach prasowych Nvidia porównuje swoją nową kartę graficzną do koncepcyjnego BMW i8. Samochód ten ma mieć lekkie nadwozie oraz dwa elektryczne silniki i jeden spalinowy, co w zamyśle połączy zalety auta sportowego z wydajnością elektrycznej hybrydy. Podobnie jest z nowym GeForce'em, który został opracowany tak, by zapewnić dużą wydajność, jednocześnie konsumując niewiele mocy. Z pewnością jest to do tej pory najwydajniejszy produkt Nvidii, a wprowadzone nowinki techniczne czynią go zarazem najbardziej energooszczędnym. Większość nowości widać w poniższej tabeli przedstawiającej najważniejsze cechy karty graficznej opartej na układzie graficznym GK104 o roboczej nazwie Kepler:
GTX 580 | GTX 680 | HD 6970 | HD 7970 | |
---|---|---|---|---|
Jednostki cieniujące | 512 | 1536 | 1536 | 2048 |
ROP | 48 | 32 | 32 | 32 |
Jednostki teksturujące | 64 | 128 | 96 | 128 |
Zegar rdzenia | 772 MHz 1544 MHz (jednostki cieniujące) | 1006 MHz 1058 MHz (Boost) | 880 MHz | 925 MHz |
Moc obliczeniowa | 1581 gigaflopów | 3090 gigaflopów | 2703 gigaflopy | 3788 gigaflopów |
Szybkość wypełniania pikselami | 37,1 gigapiks./s | 32,2 gigapiks./s | 28,1 gigapiks./s | 29,6 gigapiks./s |
Szybkość wypełniania teksturami | 49,4 gigateks./s | 128,8 gigateks./s | 84,5 gigateks./s | 118,4 gigateks./s |
Zegar pamięci | 1000 MHz | 1502 MHz | 1375 MHz | 1375 MHz |
Szyna pamięci | 384 b | 256 b | 256 b | 384 b |
Rodzaj pamięci | 1536 MB GDDR5 | 2048 MB GDDR5 | 2048 MB GDDR5 | 3072 MB GDDR5 |
Przepustowość pamięci | 178,8 GB/s | 179,05 GB/s | 163,9 GB/s | 245,87 GB/s |
Obsługiwane API | DirectX 11 | DirectX 11 | DirectX 11 | DirectX 11.1 |
Złącze graficzne | PCIe 2.1 | PCIe 3.0 | PCIe 2.1 | PCIe 3.0 |
Z rzeczy, które najbardziej zaskakują, na pewno warto wymienić stosunkowo wąską, jak na produkt z najlepszej półki, szynę pamięci i jednocześnie jej niespotykanie szybki zegar taktujący. Częstotliwości na poziomie 1,5 GHz jeszcze nie widzieliśmy, a przecież na pewno jest to wartość, którą będzie można nieco zwiększyć. Na pierwszy rzut oka widać też, że GeForce GTX 680 odszedł od tradycyjnej architektury układów Fermi, a pod względem liczby ROP-ów i jednostek teksturujących pozornie upodobnił się do... Radeona HD 7970. O bezpośrednich podobieństwach nie może być jednak mowy, bo to zupełnie inny projekt układu graficznego. Z pozostałych nowości wymieńmy zegar trybu GPU Boost, obsługę interfejsu PCI-E 3.0 i „tylko” 2 GB pamięci vRAM.
GTX 580 | GTX 680 | HD 6970 | HD 7870 | HD 7970 | |
---|---|---|---|---|---|
Nazwa robocza | GF110 Fermi 2.0 | GK104 Kepler | Cayman | Pitcairn | Tahiti |
Proces technologiczny | 40 nm | 28 nm | 40 nm | 28 nm | 28 nm |
Rozmiar rdzenia | 520 mm2 | 294 mm2 | 389 mm2 | 212 mm2 | 365 mm2 |
Liczba tranzystorów | 3,0 mld | 3,54 mld | 2,64 mld | 2,8 mld | 4,3 mld |
Upakowanie tranzystorów | 5,77 mln/mm2 | 12,04 mln/mm2 | 6,79 mln/mm2 | 13,21 mln/mm2 | 11,78 mln/mm2 |
Maksymalna moc PCB | 244 W | 195 W | 250 W | ? | 250 W |
Typowa moc PCB | 238 W | ? | 205 W | 127 W | 210 W |
Proces produkcji w wymiarze 28 nm wydaje się już odpowiednio opanowany. O jego zaawansowaniu świadczy stopień upakowania tranzystorów na każdym milimetrze kwadratowym, który jest średnio dwa razy większy niż w przypadku procesu 40-nanometrowego. Od razu widać też drobne różnice między producentami, które wynikają jednak raczej z projektu układu niż zaawansowania technicznego. Wprowadzony niedawno na rynek Radeon HD 7870 osiąga tu najwyższą efektywność wykorzystania krzemu, co z pewnością przekłada się na opłacalność produkcji. Różne podsystemy GPU (ALU, scheduler, różne rodzaje pamięci podręcznej, kontroler pamięci) mają zawsze różną gęstość (np. pamięć podręczna jest zawsze gęstsza od „logiki”, a interfejsy zewnętrzne (kontroler, PCI-E) zawsze mają bardzo małą gęstość).
Do tego różne są proporcje między obwodami projektowanymi ręcznie (które są szybsze) a projektowanymi przez automat (te są gęstsze). I na koniec: zmieniają się proporcje „składników” GPU. Pitcairn ma dużo mniej jednostek cieniowania od Tahiti, ale ma tyle samo ROP-ów i linii PCI-E; ponadto ma mniejszą powierzchnię, więc mniej powierzchni i tranzystorów trzeba poświęcić na taki szkielet jak power gating i „rozprowadzanie” zegara. Nvidia w GTX-ie 680 osiąga nieco lepsze upakowanie tranzystorów na krzemie niż AMD w Radeonie HD 7970, wprowadzonym na rynek w grudniu zeszłego roku. Być może jest więc pole do poprawy w niedalekiej przyszłości. Jednak źródła zbliżone do wytwórców „krzemu” informują, że uzysk nowych GeForce'ów jest na razie słaby, zatem dostępność produktu na półkach sklepowych stoi pod znakiem zapytania i może być początkowo ograniczona. Chętni powinni zatem ustawiać się w kolejkach już teraz :-)
Ponieważ pojęcie TDP jest nieco inaczej interpretowane przez każdego z producentów, nie użyliśmy go w powyższym zestawieniu. Porównanie mocy wymaganej przez poszczególne konstrukcje nastręcza więc pewnych trudności. Przede wszystkim TDP według Nvidii nie uwzględnia „patologicznych” sytuacji, jakie stwarza np. Furmark lub OCCT. W wydaniu AMD to „maksymalna moc”, w efekcie ten producent używa także określenia „typowa moc” (podczas grania). I wydaje nam się, że wartość 195 W podawana przez Nvidię lepiej pasuje do tej kolumny. Z drugiej strony nie sposób pominąć tego, że w odróżnieniu od Radeona HD 7970 i najszybszych kart poprzednich generacji GTX 680 ma „tylko” dwa złącza zasilania PCI-E sześciopinowe i ani jednego ośmiopinowego. A to sugeruje mniejszy pobór mocy. Ale to już rozstrzygną nasze testy.
Architektura Kepler
Podobnie jak Fermi, tak i układy graficzne Kepler są tworzone przez różne konfiguracje bloków GPC (ang. Graphics Processing Clusters), multiprocesorów strumieniowych SM (ang. Streaming Multiprocessors) i kontrolerów pamięci. GeForce GTX 680 jest złożony z czterech kompletnych GPC, ośmiu multiprocesorów strumieniowych (SMX) nowej generacji i czterech kontrolerów pamięci o szerokości 64 bitów.
W przypadku GeForce'a GTX 680 każdy GPC ma wyspecjalizowany rasteryzator i dwie jednostki SMX. Każdy z multiprocesorów strumieniowych nowej generacji zapewnia 192 SP (ang. Shader Processors), zwanych przez Nvidię CUDA Cores. Poprzedniej generacji Fermi miał tych procesorów (lub – jak kto woli – rdzeni CUDA) 32.
Tak istotne zwiększenie liczby procesorów pozwoliło na dwukrotny wzrost wydajności energetycznej.
GT200 (Tesla) | GF110 (Fermi) | GK104 (Kepler) | |
---|---|---|---|
Jednostki cieniujące | 240 | 512 | 1536 |
GPC | nie dotyczy | 4 | 4 |
SM(X) | nie dotyczy | 16 | 8 |
Zegar rdzenia | 648 MHz | 772 MHz | 1006 MHz |
Zegar jednostek cieniuących | 1476 MHz | 1544 MHz | n/a |
TDP | 183 W | 244 W | 195 W |
W przypadku GeForce'a GTX 680 zaprojektowano od nowa potok wykonawczy procesora. Każdą jednostkę obliczeniową zreorganizowano tak, aby m.in. zmaksymalizować wydajność bramkowania zegara. Największą widoczną zmianą jest zrezygnowanie z zegara jednostek cieniowania. Autonomiczny zegar jednostek cieniowania zaprezentowano wraz z architekturą Tesla jako optymalizację obszarową. Szybsze taktowanie jednostek wykonawczych pozwalało układowi osiągnąć zadaną przepływność docelową przy mniejszej liczbie kopii jednostki wykonawczej, choć szybszy zegar taktujący powodował większe zużycie mocy, szczególnie to związane z samym zegarem. Podwojenie częstotliwości angażowało dwukrotnie więcej faz potoku, z których każda pracowała z podwojonym taktowaniem, zatem wymagała cztery razy większej mocy na jednostkę. Co prawda przy dwa razy szybszym taktowaniu trzeba było zastosować dwukrotnie mniejszą liczbę jednostek, aby osiągnąć zakładaną przepływność, jednak wciąż obciążenie podwojoną mocą pozostawało na jednostkach.
Nvidia zarzeka się, że priorytetem w przypadku Keplera była wydajność na wat. Większość optymalizacji pozwalała jednak uzyskać wzrost efektywności wykorzystania powierzchni i zmniejszenie mocy. Jednak zrezygnowanie z zegara jednostek cieniujących jest przykładem dążenia do zmniejszenia poboru energii za wszelką cenę.
Trzeba przyznać, że całkowicie zmodernizowany podsystem pamięci jest sporym zaskoczeniem. Inżynierowie przeorganizowali ponoć projekt obwodów i same ścieżki, poprawili także integralność sygnałową.
Cztery 64-bitowe kontrolery pamięci wewnątrz GPU dają w sumie 256 bitów szerokości magistrali, co jak na lepszą półkę, nie jest szczególnie wielką wartością. Fermi zapewniał przecież 384 bity, czyli tyle, ile obecnie ma Radeon HD 7970. Jednak koncepcja całkowitego przeprojektowania podsystemu pamięci opierała się na zastosowaniu odpowiednio szybkich kości, które w standardzie działają z częstotliwością efektywną 6 GHz! To niespotykana dotąd prędkość. Tak szybkie taktowanie pozwoliło osiągnąć niemal taką samą przepustowość jak w przypadku GTX-a 580 (Radeon Tahiti ma jednak większą).
Do każdego z czterech kontrolerów pamięci „przywiązana” jest pamięć podręczna drugiego poziomu o wielkości 128 kB, co w sumie daje 0,5 MB na cały GPU. Do każdego kontrolera pamięci stale podłączonych jest osiem jednostek ROP, z których każda przetwarza jeden kolor próbki.
GPC
GPC to nadal podstawowy, dominujący blok strukturalny konstrukcji w Keplerze. Jako samowystarczalna jednostka, ma własne, wyspecjalizowane jednostki odpowiedzialne za rasteryzację, cieniowanie, teksturowanie i obliczenia, czyli większość podstawowych funkcji graficznych. GPC może być zatem uznany za pojedynczy element budujący, pozwalający zaprojektować w pełni funkcjonalny układ graficzny po dodaniu zarządcy, kontrolera i pamięci podręcznej. Możliwe jest więc zbudowanie układu graficznego z jednym GPC, ale także np. z 16. GeForce GTX 680 składa się z czterech GPC, z których każdy ma dwa multiprocesory SMX, zapewniając sumarycznie wydajność 32 pikseli na takt zegara.
SMX – multiprocesor strumieniowy nowej generacji
Multiprocesor to serce zunifikowanej architektury GPU Nvidii. Większość kluczowych jednostek odpowiedzialnych za przetwarzanie obrazu jest umieszczona właśnie w SM. Jednostki cieniujące (a naprawdę – wielofunkcyjne), nazywane przez Nvidię CUDA Cores, oprócz cieniowania pikseli, wektorów i geometrii umieją przetwarzać obliczenia fizyki i ogólnego zastosowania. Jednostki teksturujące filtrują tekstury, a jednostki load/store pobierają dane i zapisują je w pamięci. Jednostki SFU (ang. Special Function Unit) zajmują się bardziej skomplikowanymi działaniami, na przykład obliczaniem wartości funkcji sinus. PolyMorph Engine zajmuje się wierzchołkami, ich teselacją i transformacją z uwzględnieniem przestrzeni świata, dając ostateczny, wynikowy obraz.
SMX to klucz do zrozumienia zmian w architekturze, które pozwoliły osiągnąć tak znaczący wzrost wydajności. Aby łatwiej było zrozumieć zmiany w osiągach, warto zacząć od porównania liczby poszczególnych jednostek wykonawczych GeForce'a GTX 580, który miał 16 multiprocesorów, z ich liczbą w GeForsie GTX 680, który ma ich tylko 8:
Łatwo zauważyć, że przepustowość na takt zegara kluczowych dla przetwarzania grafiki operacji (FMA32, SFU i teksturujących) została znacznie zwiększona. Jednak niektóre z operacji pozostały na tym samym poziomie co w GeForsie GTX 580. Jednak i w tym przypadku przepustowość jest wyraźnie większa w GTX-ie 680 po uwzględnieniu znacznie szybszego zegara taktującego.
W GK104 Nvidia zdecydowała się rozdzielić całkowitą moc obliczeniową na osiem SMX, co ma przynieść lokalne zwiększenie wydajności dzięki zmniejszeniu opóźnień komunikacji przy większej liczbie multiprocesorów (w GTX-ie 580 SM było dwa razy więcej, 16). Zatem mając na uwadze ten czynnik i dane z tabeli powyżej, możemy przyjrzeć się rozłożeniu jednostek wykonawczych i ich przepustowości (na takt zegara) w przeliczeniu na jeden multiprocesor:
Także w tym przypadku jest więc widoczny duży postęp. Poszczególnych jednostek jest znacznie więcej (wyjąwszy polymorph), a ich przepustowość znacznie wzrasta, szczególnie po uwzględnieniu faktycznej częstotliwości zegara taktującego.
Aby każdy SMX miał zapewnione dane, każda jednostka składa się z czterech zarządców osnowy (ang. warp schedulers), a każdy zarządca może wysyłać dwie instrukcje na osnowę z każdym taktem zegara. Co więcej, funkcje zarządzania zostały przeprojektowane z myślą o efektywności energetycznej. Dla przykładu: zarządcy zarówno Keplera, jak i Fermi zawierają podobne jednostki sprzętowe zajmujące się zarządzaniem rozkazami. Składa się na nie m.in. priorytetyzator rejestru dla operacji long latency (texture and load), zarządca decydujący o kolejności przetwarzania osnowy przez kwalifikujących się kandydatów i GigaThread engine, choć zarządca Fermiego zawiera także jednostkę zabezpieczającą dane w strumieniu. Wieloportowa tablica rejestru śledzi wszystkie rejestry, które jeszcze nie mają gotowych danych, a jednostka sprawdzająca zależności analizuje użycie rejestru pośród dużej liczby zdekodowanych instrukcji osnów, aby sprawdzić, które są odpowiednie do przetworzenia. Te fazy zaznaczone są na powyższym schemacie grubszą, błękitną obwódką.
W przypadku Keplera inżynierowie zdali sobie sprawę, że skoro ta informacja jest znana już podczas pisania programu (opóźnienia potoku matematycznego nie są zmienne), to jest możliwe, aby kompilator określił z góry, kiedy instrukcja będzie gotowa do przetworzenia. Następnie kompilator zapisuje tę informację jako część samej instrukcji. To pozwala kompilatorowi wykonać pracę sprzętowego dekodera i zamienić kilka skomplikowanych i energochłonnych bloków sprzętowych na jedną prostą jednostkę (również zaznaczona błękitną obwódką).
GPU Boost
Kiedy określano limit TDP GTX-a 680, inżynierowie Nvidii monitorowali zapotrzebowanie karty graficznej na moc podczas przebiegu wielu programów 3D (w większości gier, raczej pomijano „patologiczne” narzędzia, jak FurMark i OCCT). Z tych obserwacji wysnuwa się zazwyczaj wnioski pozwalające ustalić na sztywno zegar taktujący układ graficzny. Jednak w przypadku Keplera inżynierowie postanowili odejść od typowego, znanego nam scenariusza i uelastycznić zegar taktujący rdzeń.
Powodem tego jest poziom obciążenia GPU podczas typowej rozgrywki. Zazwyczaj karty nie są wykorzystywane w najgorszych możliwych okolicznościach, a ich obciążenie bardzo rzadko sięga stu procent. Tym samym nie jest osiągany maksymalny teoretyczny pobór mocy. Inżynierowie wpadli więc na myśl, żeby umożliwić układowi graficznemu przyspieszenie taktowania, aby zapełnił tak powstałą lukę i zwiększył wydajność. Podobne rozwiązanie jest stosowane od dawna w procesorach, przy czym Intel zastosował Turbo także w układach graficznych HD Graphics zintegrowanych w procesorach Sandy Bridge.
W przypadku Nvidii kombinacja jednostek sprzętowych (chodzi o obwód monitorujący pobór mocy) i programowych pozwala funkcji GPU Boost pracować w tle, dynamicznie zwiększając częstotliwość taktowania GPU zależnie od warunków. Funkcja ta działa zupełnie autonomicznie, nie korzystając z predefiniowanych profilów do konkretnych gier. Nie wymaga także uwagi użytkownika.
Zatem pełne wykorzystanie dostępnego poboru mocy oznacza proporcjonalne przyspieszenie zegara taktującego GPU:
Według producenta typowe zapotrzebowanie GTX-a 680 określone na potrzeby GPU Boost to 170 W. Inżynierowie stwierdzili, że to wartość optymalna do zachowania odpowiednich poziomów temperatury i głośności. Taką wartość będą widzieli użytkownicy podczas typowego obciążenia karty. Zegar bazowy GTX-a 680 to 1006 MHz. Jest to parametr podstawowy, gwarantowany nawet w najbardziej wymagających aplikacjach. Wartość określana jako Boost Clock to średni poziom osiągany w wielu typowych aplikacjach, które normalnie nie wykorzystują całego limitu TDP. Najczęściej jest to właśnie uśrednione 1058 MHz, czyli wartość większa o 5% od standardowej. Jeszcze raz podkreślamy, że jest to częstotliwość typowa, osiągana w typowej grze i w typowym środowisku. W praktyce warto zaobserwować, jak bardzo się zmienia w zależności od gry.
Dopóki GPU będzie pozostawał poniżej swojego limitu TDP, dopóty będziemy obserwować wzrost szybkości zegara taktującego GPU. W niektórych mniej obciążających grach jest to nawet 1100 MHz.
Kontrolować działanie tej funkcji, a przede wszystkim podkręcać sprzęt pozwala narzędzie EVGA Precision X. Za jego pomocą można zmienić maksymalną moc wyrażoną w procentach, co pozwoli zwiększyć wartość offset zegara GPU. To zaś zwiększa limity funkcji GPU Boost, która nadal działa i podnosi częstotliwość taktowania w ramach ustalonych ograniczeń. Technika GPU Boost jest w pełni kompatybilna z różnymi programami do podkręcania.
Adaptacyjna synchronizacja pionowa
Dawno, dawno temu, za górami, za lasami gry były renderowane zgodnie z częstotliwością odświeżania monitora. Wówczas było to najczęściej 60 Hz. Jeżeli tylko sprzęt nie dawał rady osiągnąć takiej wydajności generowania obrazu, synchronizacja spadała do 30 Hz lub bardziej, do kolejnych wartości, przez które można podzielić 60 (czyli 20 Hz i 15 Hz). Każdy taki spadek prowadził do zacięć, „szarpania” obrazu. Powstał wówczas nowy trend generowania obrazu z wyłączoną synchronizacją. To rozwiązanie jest dobre przy stosunkowo małej liczbie klatek na sekundę, jednak przy dużej mogło powodować nakładanie się na siebie informacji z kilku klatek w jednym obrazie (ang. tearing), co oznaczało rozpraszanie użytkownika i oczywiste pogorszenie wrażeń z gry.
(Tearing oznacza przekłamanie obrazu polegające na tym, że informacja z dwóch lub więcej wygenerowanych przez źródło obrazu klatek jest wyświetlana jednocześnie w tej samej klatce monitora. Zjawisko to występuje najczęściej wtedy, gdy źródło obrazu nie jest zsynchronizowane z matrycą. Synchronizacja pionowa rozwiązuje ten problem).
Nvidia wychodzi więc naprzeciw oczekiwaniom użytkowników i wprowadza adaptacyjną synchronizację pionową. Zaprezentowane wraz ze sterownikami serii 300 rozwiązanie dynamicznie włącza i wyłącza funkcję Vsync, co ma minimalizować nieprzyjemnie zacięcia i nakładanie się informacji z różnych obrazów.
Kiedy liczba klatek na sekundę spada poniżej zadanej wartości synchronizacji (najczęściej 60 kl./sek.), funkcja adaptacyjna automatycznie wyłącza Vsync, pozwalając na płynne zmniejszenie tej liczby. Gdy tylko liczba klatek na sekundę powróci do poziomu większego niż wymagany do synchronizacji, Vsync znów jest włączana.
Funkcję tę zastosowano w sterownikach serii 300. W panelu będą dostępne dwie opcje Adaptive Vsync:
- Adaptive
- Adaptive (half refresh rate).
Ta druga będzie przydatna, kiedy ogólna wydajność gry wyniesie 25–50 kl./sek., co oznacza ograniczenie synchronizacji do 30 kl./sek.
Nowe tryby wygładzania krawędzi
FXAA to oparty na jednostkach cieniujących piksele filtr obrazu nakładany w fazie post processing, a więc tej samej, w której wykorzystywane są takie efekty, jak rozmycie ruchu i bloom. FXAA wykorzystuje procesory strumieniowe CUDA, co w założeniach pozwala zmniejszyć obciążenie i ilość niezbędnej pamięci operacyjnej w porównaniu z MSAA. Rzecz jasna, FXAA nie wyeliminuje całkowicie widocznych krawędzi, ale według Nvidii wyraźnie je redukuje. Zdaniem producenta największą zaletą FXAA jest mniejszy koszt wydajnościowy względem MSAA, w wielu przypadkach sięgający 1 ms na klatkę. To ma powodować nawet dwukrotnie większą liczbę klatek na sekundę niż w trybie 4× MSAA. Oczywiście, postaramy się to niebawem sprawdzić.
Po raz pierwszy zaprezentowano tę technikę w zeszłym roku, ale dopiero teraz zostanie dodana do panelu sterowników, co umożliwi włączenie jej niezależnie od gry.
TXAA to nowa technika zaprojektowana do wykorzystania wysoko przepływnego potoku tekstur FP16. Ale TXAA to mariaż sprzętowego wygładzania krawędzi i pewnych rozwiązań programowych. W dużej części jest to filtr wysokiej jakości zaprojektowany do współpracy z potokiem korygującym HDR (także w post processingu).
Dostępny w dwóch modelach funkcyjnych TXAA 1 i 2 ma w założeniu zapewnić jakość obrazu charakterystyczną dla trybu 8× MSAA przy kosztach w dziedzinie wydajności typowych dla 2× MSAA. TXAA 2 ma być pod tym względem nawet lepszy od 8× MSAA za cenę wydajności takiej jak w trybie 4×.
Dotychczas zaimplementowanie TXAA zapowiedzieli producenci gier: MechWarrior Online, Secret World, Eve Online, Borderlands 2, a także twórcy silnika Unreal 4 oraz BitSquid, Slandt Six Games i Crytek.
Ponieważ wszystkie zapowiadane techniki wygładzania krawędzi miały zapewnić podobny przełom w wydajności i jakości obrazu, podchodzimy do nich dość sceptycznie. Niewiele więcej wiadomo o ich technicznej stronie. Gdy tylko będzie taka możliwość, dokładnie sprawdzimy wydajność i jakość obrazu oraz przeanalizujemy dokładniej ich działanie.
3D Vision Surround z jednej karty
GTX 680 obsługuje do czterech monitorów naraz. To cecha, której do tej pory kartom Nvidii wyraźnie brakowało. Oprócz tego zapewniono obsługę przyszłych monitorów 4K poprzez DisplayPort 1.2, a także 3-gigahercowego HDMI.
Referencyjny Kepler jest dostarczany z dwoma złączami DVI dual link, HDMI i DisplayPort. Z takim zestawem wyjść wideo nie potrzeba żadnego adaptera, aby podłączyć cztery monitory. Wystarczy mieć wyświetlacze, które mają tego typu wejścia.
Jedną z najważniejszych cech GTX-a 680 jest to, że po podłączeniu kilku monitorów zegary taktujące nie przyspieszają. Dotąd typowa była sytuacja, kiedy po podłączeniu drugiego monitora i następnych pamięć na karcie graficznej przełączała się w tryb 3D. Obecnie zachowane zostają zegary typowe dla spoczynku, pod warunkiem że wszystkie wyświetlacze działają w tej samej rozdzielczości.
NVENC
Wszystkie Keplery mają także sprzętowy koder H.264. Do tej pory kodowanie materiałów tego typu, coraz popularniejszych, odbywało się za pośrednictwem oprogramowania korzystającego z techniki CUDA. Tak więc do pracy zaprzęgnięte były procesory strumieniowe, które generowały wówczas sporo ciepła i potrzebowały niemało energii. Dzięki użyciu wyspecjalizowanego układu kodującego przykładowo strumień H.264 GTX-a 680 jest nawet cztery razy szybszy od poprzednich rozwiązań opartych na rdzeniach CUDA, jednocześnie pobierając znacznie mniej mocy.
Jak widać, teoria przekłada się na praktykę i już w momencie wprowadzenia GTX-a 680 na rynek Cyberlink MediaEspresso umie wykorzystać zalety Keplera. Niewielkim mankamentem jest stosunkowo duże obciążenie procesora podczas konwersji. Do przetestowania pozostała nam jeszcze najnowsza wersja tego programu. Producent obiecuje, że w najnowszej „becie” uda się poprawić wyniki.
PhysX
Możliwości tej techniki zaprezentowano na przykładzie dem technologicznych Fur i Fracture. Pierwsze prezentuje możliwości modelu fizyki ruchu futerka na potworze, a w drugim niszczymy betonowe filary, które za każdym razem rozpadają się w inny sposób.
Jako próbkę możliwości PhysX producent zademonstrował także fragment gry QQ Dance Two, w której akceleracja fizyki wykorzystywana jest do obliczania ruchu włosów i ubioru tancerek. Nie wątpimy co prawda w to, że to zadanie bardzo wymagające, ambitne, ale umieszczenie w filmie pięciu tancerek wykonujących identyczne ruchy sugeruje, że obliczenia wykonywane są tylko dla pierwszej z nich (resztę można przecież skopiować). Znacznie bardziej przekonywałoby pięć tancerek, z których każda tańczyłaby inaczej lub popełniała niewielkie gafy, np. myliła kroki.
Referencyjny GeForce GTX 680 – czarno-zielony, jak zwykle
Naszym zdaniem wygląd opakowania jest zadziwiająco stonowany, lecz elegancki, co bardzo nam się podoba. Co innego karta graficzna: wentylator umieszczono powyżej linii środkowej, co sprawia wrażenie nieforemności i zdecydowanie szpeci. Ale przecież nie o wygląd tu chodzi.
Na wierzchu umieszczono ciekawy, zielony napis. Warto zauważyć zupełnie nietypowe rozmieszczenie gniazd zasilających. Wbrew pierwszym obawom o wygodę podłączania i odłączania tak umieszczonych gniazd sześciopinowych nie nastręcza to szczególnych trudności.
Punkty lutownicze na laminacie wskazują, że jest tu miejsce na użycie dwóch sześciopinowych złączy PCI-E i jednego ośmiopinowego. Nic bardziej mylnego. To jedynie pozwala zastosować piętrowe, podwójne złącze (tak jak w naszym egzemplarzu) lub dwa obok siebie (tak jak w standardowej karcie).
Każde z czterech złączy na tylnym panelu jest inne. Mamy tu dwa DVI Dual Link, pełnowymiarowe HDMI i DisplayPort. Znalazło się także miejsce na wylot nagrzanego powietrza, jednak część wypada również otworem na górnej krawędzi karty – wprost do obudowy.
Palit GeForce GTX 680 JetStream
Pierwszym producentem, który dostarczył do nas własną wersję GTX-a 680, jest Palit.
Wyposażenie dodatkowe karty raczej nie zachwyca, ale przejściówka zasilania, HDMI-DVI i DVI-D-sub, sterowniki i instrukcja to raczej wszystko, co niezbędne.
W schładzaczu zastosowano trzy wentylatory, spośród których dwa skrajne są mniejsze i nachylone pod pewnym kątem względem laminatu. Obudowa wystaje znacznie ponad szerokość dwóch złączy PCI-E i przysłania trzecie.
Także tu zastosowano „piętrowe” złącze zasilania, z tą jednak różnicą, że tym razem mamy dostępne jedno PCI-E ośmiopinowe, zamiast dwóch PCI-E 6-pinowych. Jak widać, laminat jest przystosowany także do standardowego ułożenia złączy zasilania.
Wśród złączy wideo jest pełnowymiarowy DisplayPort, HDMI, DVI-I i DVI-D. Razem z dołączoną przejściówką mamy więc trzy wyjścia DVI. Ale co, jeśli do Vision Surround ktoś zechce wykorzystać trzy monitory z końcówką męską DVI-I? Wówczas będzie problem.
Platforma testowa
Wszystkie testy wydajności zostały wykonane na platformie składającej się z następujących podzespołów:
Sprzęt | Dostawca | |
---|---|---|
Procesor | Core i7-2600K @ 4700 MHz | www.morele.net |
Płyta główna | MSI Big Bang Marshal | pl.msi.com |
Monitor | EIZO FlexScan SX2762W (27 cali, 2560×1440) | www.alstor.pl |
Miernik poziomu dźwięku | Sonopan SON-50 | www.sonopan.com.pl |
Sprzęt do testów tła | Karty graficzne | www3.pny.com www.hisdigital.com |
Pamięć | Corsair Vengeance DDR3-1866 2 × 4 GB@1866 MHz 9-10-9-27 2T | www.corsair.com |
Nośnik systemowy | OCZ Vertex 3 120 GB | www.ocztechnology.com |
Nośnik dodatkowy | Seagate Barracuda 7200.12 1 TB | www.seagate.com |
Schładzacz procesora | Zalman CNPS 11X Extreme | www.zalman.com |
Zasilacz | Thermaltake Toughpower Grand 850 W | www.thermaltake.com |
Obudowa | Thermaltake Level 10 GT | www.thermaltake.com |
System operacyjny:
- Windows 7 Ultimate 64-bitowy.
Sterowniki:
- karty graficzne AMD Radeon – Catalyst 12.3,
- Nvidia GeForce GTX 680 – ForceWare 301.10
- pozostałe karty graficzne Nvidia GeForce - ForceWare 301.14 beta.
BIOS płyty głównej – 7670v12.
Wydajność teselacji
PolyMorph engine od czasu pojawienia się układów Fermi jest kluczową jednostką odpowiedzialną za wysoką wydajność teselacji DX11. Zaprojektowany został tak, żeby zapewnić odpowiednią przepustowość nawet wtedy, gdy wskaźnik intensywności teselacji jest zwiększany w danym programie, np. gdy stosunek liczby wychodzących, przetworzonych wielokątów do liczby wielokątów wprowadzanych do obliczeń znacząco rośnie.
Każda taka jednostka jest połączona z multiprocesorem strumieniowym, wobec czego GTX 680 ma ich tylko 8, podczas gdy GTX 580 miał ich 16. Nowe jednostki zostały za to radykalnie przeprojektowane, aby zapewnić dwa razy większą wydajność na takt zegara niż wersje w układach graficznych Fermi. Nawet uwzględniając o kilkadziesiąt procent szybszy zegar rdzenia w GTX-ie 680, otrzymamy wyraźnie większą wydajność.
Jak widać, teoria ma przełożenie na praktykę i w każdym z testowanych trybów GTX 680 dominuje nad układem poprzedniej generacji i Radeonem.
GPGPU
Informacje na temat GPGPU z wykorzystaniem Keplera zostaną podane dopiero na tegorocznej GPU Technology Conference, czyli w maju. Podczas tej imprezy zostaną zaprezentowane wersje Keplera do zastosowań profesjonalnych. My postanowiliśmy jednak przetestować GTX-a 680 w swoim standardowym zestawie aplikacji sprawdzających przydatność karty graficznej w obliczeniach ogólnego użytku:
Niektóre testy zgłaszały błędy, niektóre narzędzia nie uruchamiały się wcale. Jednak większość testów udało się przeprowadzić. Wydajność GTX-a 680 może nie wszędzie jest zadowalająca, ale w niektórych zastosowaniach jest największa w stawce. Dzięki pomocy użytkowników społeczności boinc.pl udało nam się sprawdzić przydatność Keplera w obliczeniach rozproszonych w aktualnym, niedostosowanym jeszcze do najnowszej karty środowisku programowym.
Nasuwa się jeden wniosek: trzeba oczekiwać na oficjalne informacje od producenta, a przede wszystkim na nowy CUDA Toolkit. To powinno zniwelować syndrom wieku młodzieńczego i umożliwić lepsze dostosowanie oprogramowania do tej architektury.
Wydajność w programach 3D i grach
GeForce GTX 680 dobrze wypada w testach syntetycznych, czyli 3DMarku i Unigine. W niektórych pokonuje nawet dwuprocesorowe karty, takie jak Radeon HD 6990 i GeForce GTX 590.
Niemal we wszystkich użytych grach obserwujemy dominację GTX-a 680 nad Radeonem Tahiti. Ogólna tendencja jest taka, że im wyższa rozdzielczość, tym mniejsza procentowa różnica między GTX-em 680 a Radeonem HD 7970, ale bezpieczna odległość wciąż zostaje zachowana. Niestety, nie udało nam się do końca zmierzyć osiągów podkręconej wersji Radeona HD 7970, ponieważ nie dojechała na czas. Ale jak tylko dostaniemy najmocniejszego Tahiti, to zaspokoimy Waszą ciekawość, sprawdzając, czy przyspieszony do 1100–1200 MHz Radeon da radę nowemu GeForce'owi.
Wydajność w grach, cd.
Warto w tym miejscu dodać, że podczas typowej rozgrywki działa funkcja GPU Boost, która przyspiesza zegar taktujący rdzeń układu graficznego o co najmniej 50 MHz, a w typowym scenariuszu – nawet o niemal 100 MHz. Zatem stwierdzenie, że taka wydajność jest osiągana przy typowych nastawach zegarów, niektórzy mogą potraktować jako nadużycie. Moglibyśmy „w rewanżu” przetestować HD 7970 działający z równie szybkim zegarem rdzenia (np. 1100 MHz), bo tyle bez trudu da się wycisnąć z niemal każdego egzemplarza, jednak to Nvidia pierwsza wpadła na pomysł zastosowania „trybu turbo” w swoich kartach graficznych, więc testy uważamy za w pełni poprawne.
Ciśnienie akustyczne
Test głośności wykonujemy w wygłuszonym pomieszczeniu pod poziomem gruntu. W takich warunkach w środku nocy mierzyliśmy ok. 18,7 dBa. Ostrożny oddech testującego zwiększa głośność tła do 20,0 dBa. Identyczny poziom osiąga ona w dzień, gdyż mimo usytuowania pomieszczenia i wygłuszenia go część miejskiego gwaru dociera do sprzętu pomiarowego. My testujemy w środku nocy, co zapewnia najmniejszy możliwy wpływ zewnętrznych czynników.
Dodatkowo przeprowadziliśmy test głośności na poziomie uszu testującego, podczas gdy zamknięta obudowa komputera znajdowała się pod biurkiem. Oto rezultaty:
GTX 680, podobnie jak Radeon HD 7970, w spoczynku jest niemal niesłyszalny. Inne wentylatory w komputerze podczas typowej codziennej pracy zagłuszą go. Wynik przy braku obciążenia można zatem uznać za rewelacyjny. Jednak ten poziom „kultury” działania Radeon HD 7970 osiągnął już całe trzy miesiące temu. Pod obciążeniem GTX 680 także radzi sobie bardzo dobrze: pokonuje referencyjnego AMD Tahiti i nie jest specjalnie głośny. Daleko mu jednak do niektórych konstrukcji innych firm, takich jak Sapphire Dual Fan.
Aktualizacja: Palit Jetstream radzi sobie w tej konkurencji bardzo dobrze. Widać jego nieco rozbudowany schładzacz nie nagrzewa się nadmiernie i tym samym nie rozkręca wszystkich trzech wentylatorów do wysokich obrotów. Pomiar bezpośredni w spoczynku wskazuje jednak na nieco wyższą wartość ciśnienia. Podejrzewamy, że jest to spowodowane właśnie liczbą wentylatorów, których hałas nakłada się na siebie
Pobór mocy, temperatura
Pobór mocy, jak na GeForce'a, imponuje. W spoczynku niewiele brakuje do Radeona HD 7970, a pod obciążeniem jest nawet odrobinę lepiej. Dane teoretyczne i stosunkowo małe TDP nie znajdują odzwierciedlenia w pomiarach. Tak jak podejrzewaliśmy, sposób, w jaki Nvidia rozumie TDP, jest co najmniej dziwny, a zastosowanie w karcie tylko 256-bitowej szyny pamięci i tylko sześciopinowych złączy zasilania nie przynosi spodziewanych rezultatów. Dwa waty to wynik niemal na granicy błędu pomiarowego. Mimo wszystko brawo! To i tak nowa jakość w rodzinie GeForce'ów.
Aktualizacja: Palit Jetstream mimo, że oferuje znacznie wyższy zegar taktujący rdzeń graficzny, pobiera tylko o 6 W więcej w pełnym obciążeniu! To świetny wynik. Spodziewaliśmy się znacznie więcej, choćby ze względu na to, że ten model wymaga podłączenia jednego złącza PCI-E 8-pin i jednego 6-pin, zamiast dwóch mniejszych, jak w referencie. Za to w spoczynku jest nawet oszczędniejszy niż pierwowzór.
Nvidia nie wprowadziła rozwiązania podobnego do znanej nam z kart AMD funkcji Zero Core Power, która drastycznie zmniejsza pobór energii, gdy monitor jest wygaszony i gdy wiele kart współpracuje ze sobą w konfiguracji CrossFire. Jednak Nvidia ma innego asa w rękawie: pobór mocy po podłączeniu kilku monitorów. Jak zachwala producent, GTX 680 nie przyspiesza wtedy zegarów ponad parametry standardowe dla braku obciążenia. Przypomnijmy, że w kartach AMD zegar pamięci jest w takim przypadku przyspieszany do wartości charakterystycznych dla trybu 3D, co powoduje istotny wzrost poboru mocy. Jednak trzeba spełnić pewne warunki, aby GeForce nie zwiększył częstotliwości taktowania. Obszerniej napisaliśmy o tym na stronie o 3D Vision Surround.
Stosunkowo mały pobór mocy mógłby wskazywać na to, że GeForce GTX 680 nie jest zbyt „gorący”. A jak jest naprawdę?
GTX 680 nie należy do „chłodnych” układów graficznych, podobnie zresztą jak większość GeForce'ów poprzedniej generacji. Radeon HD 7970 jest nieco chłodniejszy.
Aktualizacja: Za to temperatury pracy Palita Jetstream są zaskakująco niskie. Mimo że karta ma nominalne taktowanie rdzenia o 80 MHz większe niż referent, to sporych rozmiarów schładzacz doskonale radzi sobie z rozpraszaniem ciepła.
Podkręcanie
GeForce'a GTX 680 udało nam się podkręcić mniej więcej do takich oto wartości:
Dlaczego mniej więcej? Otóż w przypadku pamięci sprawa jest prosta: ustawiamy 1772 MHz i tyle właśnie wynosi częstotliwość taktowania pod obciążeniem. Ale sposób podkręcania układu graficznego nowego GeForce'a jest nieco zawiły. Jeśli nie zmieni się dopuszczalnego poboru mocy, GPU Boost dostosuje częstotliwość do zadanego, zwiększając standardowe maksymalne taktowanie lub – w „patologicznych” przypadkach – ograniczając je. Zatem to, ile tak naprawdę da się osiągnąć, trzeba sprawdzić za pomocą oprogramowania monitorującego. Podobno funkcję GPU Boost da się wyłączyć, co z pewnością ułatwi dokładniejsze ustawianie częstotliwości zegarów.
Powyżej widać przykładowy odczyt bieżących częstotliwości taktowania i innych parametrów działania karty podczas rozgrywki w DiRT3 na przedstawionych na zrzucie nastawach. Widać, że układ graficzny pracuje z częstotliwością 1190 MHz podczas gry i nieco większą w menu (tu było to 1215 MHz). A wszystko to przy ustawieniu parametru offset na + 170 MHz (tak, jak wskazuje GPU-Z).
Ponieważ nasza procedura testowa nie zakłada zwiększania napięć ani zmian w ustawieniach dopuszczalnego poboru energii, testy przeprowadziliśmy bez zmiany tych parametrów. Jednak można to zrobić w dostępnym już programie EVGA Precision X, co z pewnością pozwoli wycisnąć z karty jeszcze więcej.
Aktualizacja: Za to podkręcanie Palita Jetstream było dla nas sporym zawodem. W tym przypadku udało się uzyskać dużo niższe częstotliwości niż w modelu referencyjnym. Szczególnie dobrze jest to widoczne w przypadku pamięci. Jak widać większość egzemplarzy GTX 680 osiąga po prostu te same limity wydajności, a wyraźne jej podniesienie wymaga już zmiany napięcia zasilającego.
Czy już nie za późno?
Historia lubi się powtarzać. Dwa lata temu byliśmy świadkami wpadki z pierwszymi GeForce'ami GTX 480 (Fermi), sporo opóźnionymi względem Radeona HD 5870. Nowa karta Nvidii znów się spóźniła, choć tym razem „tylko” o kwartał względem największego rywala – HD 7970. Tym razem jednak o żadnej wpadce mowy być nie może. GTX 680 jest odpowiednio wydajny i w większości testów przegania Radeona. Różnica jest tym mniejsza, im wyższa jest rozdzielczość. Widać zatem, że zmiany w architekturze prowadzą ku lepszemu. Dominacja poprzednika, GTX-a 580, w segmencie jednoukładowych kart graficznych dla entuzjastów trwała ponad rok i nie wszyscy ich użytkownicy od razu po wprowadzeniu na rynek Radeonów HD 7970 przesiedli się na szybszą kartę. Ci bardziej wytrwali mają ku temu dobrą okazję właśnie teraz. I to nie tylko ze względu na wydajność, bo nowy GeForce jest też wreszcie energooszczędny. To nie była ostatnio najmocniejsza strona konstrukcji Nvidii, co tym bardziej cieszy. Szkoda tylko, że podejście do definiowania TDP i maksymalnej mocy jest co najmniej dziwne. Rzuca to pewien cień na naprawdę niezłą resztę. GTX 680 pobiera przecież mniej więcej tyle samo co Radeon HD 7970, a to i tak świetny wynik! Nie ma się więc czego wstydzić i po co tworzyć niespotykane reguły obliczania typowego poboru energii.
Dokładnie kwartał opóźnienia względem największego rywala prowadzi jednak do tego, że na rynku mamy już całkiem sporo modeli przeprojektowanych i wyposażonych w nowe układy chłodzenia. Obecnie jest dostępne całe mnóstwo Radeonów kosztujących znacznie poniżej 2 tys. zł, jak również sporo droższych i podkręconych wersji. Te drugie mogą według plotek bez kompleksów rywalizować z GTX-em 680, ale na podstawie jego wydajności, która pozwala doścignąć dotąd niedoścignione dwuprocesorowe karty graficzne, można uznać, że to nie będzie łatwe. Sprawdzimy to niebawem.
Pozytywnie zaskoczyło nas wprowadzenie funkcji GPU Boost. To kolejna nowatorska cecha, która choć była tak oczywista w kartach graficznych, to jednak nikt wcześniej nie wprowadził podobnego rozwiązania. Obsługa więcej niż dwóch monitorów to coś, czego nam bardzo w GeForce'ach brakowało. Niemniej ważny jest pobór mocy po podłączeniu kilku wyświetlaczy – również pod tym względem jest znakomicie. Zaletami nie do przecenienia są też: nowy, sprzętowy dekoder H.264, Nvenc, PhysX i akceleracja CUDA, z której korzysta coraz więcej aplikacji. „Kultura” działania jest więcej niż zadowalająca, a możliwości podkręcania robią wrażenie. Mamy nadzieję ujrzeć niebawem wysyp produktów z firmowymi schładzaczami różnych producentów.
Cena początkowa produktu jest dość wysoka, podobnie jak było w przypadku Radeona Tahiti. Wówczas HD 7970 nie otrzymał rekomendacji właśnie ze względu na cenę. Zawsze cieszy nas, kiedy konkurencja na rynku odżywa na nowo, bo jest to świetna okazja do wprowadzenia nowych wersji produktów i korekty ich cen. GeForce'owi zabrakło do rekomendacji bardzo mało i mimo że to doskonały produkt, naszym zdaniem został wyceniony ciut za wysoko. Niemniej jednak pojawienie się tak dobrej konstrukcji z pewnością wpłynie pozytywnie na ceny kart graficznych. Liczymy na zaostrzenie się konkurencji między obydwoma głównymi producentami układów graficznych i na to, że wszyscy na tym skorzystamy.
GeForce GTX 680 od dziś jest bez wątpienia najszybszą jednoukładową kartą graficzną na rynku i dlatego w pełni zasługuje na nagrodę Power:
Do testów dostarczył: Nvidia
Cena w dniu publikacji (z VAT): 2179 zł
Aktualizacja:
Do testów dostarczył: Palit
Cena w dniu publikacji (z VAT): 2199 zł