• Wszystkie publikacje
  • Aktualności
  • Artykuły
  • Dyskusje na forum
  • Pliki do pobrania
  • Artykuły
  • Aktualności
  • Pliki
  • Tagi
  • Konkursy
  • Forum
  • Personalizuj
Zarejestruj się   |  Zapomniałem hasła
  • Wszędzie
  • Artykuły
  • Aktualności
  • Pliki
  • Firmy
DźwiękWydarzeniaZestawy komputeroweTechnologieInne
Drukarki i skaneryUrządzenia wskazująceOprogramowanieGryMultimedia i gadżety
Obudowy i zasilaczeChłodzenieSerwery i sieciKomputery przenośneMonitory i projektory
Karty graficznePłyty główneProcesoryPamięciNapędy dyskowe i optyczne
Karty graficzne
Artykuł
Strona główna»Artykuły»Karty graficzne

GeForce GTX 480 (Fermi) – nowa generacja kart graficznych NVIDI-i (w końcu!)

Przyszłość według NVIDI-i
Mieszko Krzykowski, Sobota, 27 marca 2010, 00:00
Tagi: amd, directx 11, fermi, geforce gtx 470, geforce gtx 480, gf100, nvidia, radeon hd 5870, teselacja

Trochę architektury – pamięć podręczna, zarządca i kontroler pamięci

Drugą zmianą widoczną na ogólnym widoku architektury układu GF100 jest to, że Fermi otrzymał prawdziwą hierarchię pamięci podręcznej. Osoby bardziej spostrzegawcze zapewne zauważyły, że na diagramie GT200 jest mowa o pamięci podręcznej tekstur, natomiast w przypadku GF100 brakuje słowa tekstur. Nie jest to przeoczenie, a jedna z większych zmian w stosunku do poprzedniej generacji. Zmiana ta jest przede wszystkim ukłonem w kierunku osób wykorzystujących karty graficzne w obliczeniach, a nie w grach. Mimo że zarówno w jednym, jak i w drugim przypadku jest to pamięć podręczna, to różnica między nimi jest bardzo duża.

Pamięć podręczna tekstur, jak sama nazwa wskazuje, została zaprojektowana do przechowywania... tekstur (mało odkrywcze). Podstawową różnicą w porównaniu z pamięcią podręczną w procesorach jest to, że jest to pamięć tylko do odczytu i nie ma ona na celu zapewnienia spójności danych pomiędzy multiprocesorami. W tradycyjnym procesorze pamięć podręczna jest często wykorzystywana przy wykonywaniu obliczeń – są tam zapisywane dane potrzebne do ich wykonania (pobierane później przez właściwą część rdzenia instrukcją load) oraz ich wyniki (zapisywane instrukcją store). Pamięć podręczna służy też do tego, aby rdzenie nie nadpisywały swojej pracy i aby wiedziały, którym zadaniem się zajmują. Poza tym ma ona na celu przyspieszenie działania procesora, bo dzięki pamięci podręcznej jest możliwe wielokrotne używanie danych bez konieczności ciągłego odwoływania się do zewnętrznego RAM-u.

Do pamięci podręcznej tekstur dane zapisuje się „odgórnie”. Programista może zdecydować, że umieści w niej jakąś macierz danych, która będzie często wykorzystywana przy obliczeniach, dzięki czemu oszczędzi cenną przepustowość pamięci. A multiprocesory same z siebie nic do niej nie mogą zapisać – mogą jedynie pobierać z niej dane (wykonywać instrukcję load). Dane są zapisywane bezpośrednio do zewnętrznej pamięci z wykorzystaniem po drodze ROP-ów (do których jest wysyłana instrukcja store). Pamięć podręczna tekstur jest też sporo wolniejsza od zwykłej pamięci podręcznej, ponieważ nie jest potrzebny tak szybki dostęp do niej jak w przypadku procesora. W GT200 do komunikowania się pomiędzy wątkami w SM była wykorzystywana pamięć współdzielona (16 kB), do której procesory strumieniowe (ang. Streaming Processor – SP) mogą zapisywać wyniki swoich obliczeń, dostępne do wykorzystania przez inne SP znajdujące się w danym SM (pod warunkiem że wykonują obliczenia dla wątku należącego do tego samego bloku – obszerniej napiszemy o tym trochę później). Jednak to też nie jest pamięć podręczna w pełnym tego słowa znaczeniu. Jest ona zarządzana programowo, a nie sprzętowo, czyli programista decyduje, kiedy dane z niej są odczytywane, a kiedy są do niej zapisywane i oczywiście co się tam znajduje. Fermi ma pamięć podręczną znacznie bliższą temu, co spotykamy w procesorach. Każdy SM otrzymał 64 kB szybkiej pamięci. Może ona zostać podzielona w proporcji 16/48 kB – część jest wykorzystywana jako pamięć L1D (pamięć podręczna danych pierwszego poziomu), a część jako pamięć współdzielona. Rozmiar obu rodzajów pamięci można ustawić ręcznie w czasie działania układu. Wymaga to jednak zatrzymania na chwilę wszystkich obliczeń. NVIDIA zdecydowała się na taką konfigurowalność, ponieważ każdy z tych rodzajów pamięci może być bardziej lub mniej przydatny, zależnie od sytuacji. Gdy mamy do czynienia z bardziej przewidywalnymi algorytmami i obliczeniami, większy pożytek będzie z większej pamięci współdzielonej. Gdy obliczenia są mniej przewidywalne i trudno zmusić algorytm do efektywnego wykorzystywania pamięci współdzielonej, lepiej jest, gdy pamięć podręczna ma większy rozmiar, a pamięć współdzielona – mniejszy. Oprócz tego Fermi otrzymał prawdziwą pamięć podręczną drugiego poziomu (768 kB) zamiast pamięci podręcznej tekstur drugiego poziomu, jak w GT 200 (256 kB). Pośredniczy ona w wykonywaniu instrukcji load/store (także przy operacjach na teksturach, tak jak pamięć tekstur), pilnuje, aby dane nie były nadpisywane przez „niepowołane” wątki (zapewnia spójność danych), i umożliwia korzystanie z tych samych danych wszystkim multiprocesorom.

Jak już wspomnieliśmy, ta zmiana bardziej była podyktowana potrzebami naukowców niż projektantów gier. Gry co prawda także skorzystają z większej i szybszej pamięci, w której mogą być trzymane tekstury, ale różnice na pewno nie będą na tyle duże, aby uzasadnić całkowitą przebudowę układu i sposobu zarządzania pamięcią. Za to programy wykonujące różne dziwne obliczenia mogą przyspieszyć nawet kilkukrotnie (w skrajnych przypadkach). Poza tym jest to znaczne ułatwienie dla programistów, którzy mają teraz dostępny znacznie bardziej przejrzysty model pamięci. Dodatkowym prezentem od NVIDI-i jest jednolita przestrzeń adresowa pamięci lokalnej, współdzielonej i globalnej, co mocno upraszcza operacje na wskaźnikach.

Inna zmiana zaszła w globalnym zarządcy (ang. scheduler), który rozdziela pracę pomiędzy SM. NVIDIA zarządcę Fermiego nazywa GigaThread Engine. Tutaj będzie potrzebne małe wyjaśnienie dotyczące tego, w jaki sposób jest organizowana praca w GeForce'ach. Najszerszym pojęciem jest kernel. Jest to „miniprogram” wykonujący jakieś zadanie obliczeniowe (w przypadku grafiki będzie to jakiś shader). Kod jest analizowany i jest tworzona siatka składająca się z bloków wątków. Blok wątków składa się (jak sama nazwa wskazuje) z oddzielnych wątków (do 512 wątków na blok). GigaThread Engine rozsyła poszczególne bloki do multiprocesorów (o tym, jak i dlaczego wątki są grupowane w bloki, napiszemy w swoim czasie ;)). W G80 i GT200 zarządca mógł się zajmować w tym samym czasie tylko jednym kernelem / jedną siatką bloków. W Fermim zmieniono to: GigaThread Engine może zajmować się kilkoma kernelami jednocześnie. Jest to przydatne, gdy zadanie do wykonania jest zbyt małe, aby zapewnić pracę całemu układowi. Wtedy zarządca może do niezajętych obliczeniami multiprocesorów wysłać bloki wątków związane z innym kernelem. Ograniczeniem jest to, że wszystkie kernele muszą mieć ten sam „kontekst”. Nie jest na przykład możliwe jednoczesne liczenie fizyki na części multiprocesorów i wykonywanie kodu OpenCL na reszcie. Poprawka ta nie ma większego znaczenia w przypadku renderowania grafiki, ponieważ przeważnie procesor ma wystarczająco dużo roboty, aby obciążyć wszystkie multiprocesory. Jest to więc kolejna poprawka, która przyniesie korzyści w GPGPU. Ale NVIDIA chwali się przy tym, że znacznie poprawiła szybkość przełączania się pomiędzy kontekstami. Powinno to mieć pozytywny wpływ na wydajność w grach korzystających z GPU PhysX, gdy zarówno grafika, jak i fizyka są liczone na tej samej karcie graficznej. Skorzystają z tego też wszelkie gry DirectX 11, które używają Compute Shaderów DirectX-a 11 (na przykład BattleForge, S.T.A.L.K.E.R.: Zew Prypeci, gry oparte na silniku Frostbite 2.0 itp.). Mimo że DirectCompute jest częścią DirectX, to nie jest możliwe jednoczesne wykonywanie kodu DirectCompute i Direct3D. Musi nastąpić zmiana kontekstu. Dzięki temu, że karta traci mniej cykli zegara na przełączanie się pomiędzy trybami pracy, może szybciej wykonać potrzebne obliczenia.

Ostatni zestaw zmian widocznych „z lotu ptaka” nastąpił w kontrolerze pamięci. Fermi ma sześć kontrolerów obsługujących pamięć GDDR5. Daje to nam 384-bitową szynę pamięci. Dla porównania, GT200 miał osiem kontrolerów GDDR3, co dawało 512-bitową szynę. Zmianą związaną z kontrolerem, która znowu nie ma żadnego związku z grami, jest dodanie mechanizmów korekcji błędów ECC. Dzięki temu błędy w przesyłaniu danych po szynie pamięci mogą być naprawiane. Oczywiście – nic za darmo. Włączenie trybu ECC powoduje 10–20% spadek przepustowości pamięci. To następna funkcja całkowicie niepotrzebna graczom, a bardzo przydatna w zaawansowanych obliczeniach. (Wyobraźcie sobie, że w obliczeniach związanych z wytworzeniem na przykład leku, które trwają kilka tygodni, pojawił się jakiś błąd w obliczeniach wynikający z nieprawidłowego przesłania danych z pamięci). Oczywiście, specyfikacja pamięci GDDR5 zawiera pewne mechanizmy wykrywania błędów i ponawiania transmisji danych „do skutku” (z tego korzystają Radeony HD 5000), ale w niektórych zastosowaniach to nadal za mało.

1234567891011121314151617 ... 28»
Znajdź sklep z częściami komputerowymi w Zumi.pl
Poprzednia strona
Trochę architektury – widok z góry
Następna strona
Trochę architektury – multiprocesor i okolice
Spis treści
  • 1.
    Trochę architektury – widok z góry
  • 2.
    Trochę architektury – pamięć podręczna, zarządca, kontroler pamięci
  • 3.
    Trochę architektury – multiprocesor i okolice
  • 4.
    Trochę architektury – umarł TPC, niech żyje GPC!
  • 5.
    Modele i specyfikacja kart
  • 6.
    Filtrowanie tekstur i wygładzanie krawędzi
  • 7.
    Fermi pręży muskuły – wydajność teselacji i DirectCompute
  • 8.
    3DVision, OptiX i inne CUDA
  • 9.
    GeForce GTX 480 – karta referencyjna
  • 10.
    Zestaw testowy
  • 11.
    3DMark Vantage
  • 12.
    Battlefield: Bad Company 2 DX 10
  • 13.
    Borderlands
  • 14.
    Call of Duty: Modern Warfare 2
  • 15.
    Colin McRae: DiRT 2 DX 9
  • 16.
    Crysis: Warhead
  • 17.
    Enemy Territory: Quake Wars
  • 18.
    Left 4 Dead 2
  • 19.
    Metro 2033 DX 10
  • 20.
    Need for Speed: Shift
  • 21.
    S.T.A.L.K.E.R.: Zew Prypeci DX 10.1
  • 22.
    Battlefield: Bad Company 2 DX 11
  • 23.
    Colin McRae: DiRT 2 DX 11
  • 24.
    Metro 2033 DX 11
  • 25.
    S.T.A.L.K.E.R.: Zew Prypeci DX 11
  • 26.
    Pobór mocy, głośność, temperatura
  • 27.
    Podkręcanie
  • 28.
    Podsumowanie
Zobacz cały spis treści
Ocena artykułu:
Ocen: 62
Zaloguj się, by móc oceniać
Zgłoś redakcji błąd na tej stronie
Artykuły spokrewnione
  • Najnowsze
  • Popularne
  • Najwyżej oceniane
  • Pogłębiony test Radeona HD 7970 – multi-GPU, GPGPU, kodowanie wideo, karty różnych firm, podkręcanie ekstremalne 130
  • Radeon HD 7950 – kontynuacja ofensywy Graphics Core Next 131
  • Test 104 kart graficznych DirectX 11 168
  • Radeon HD 7970 – „bombowe” wejście Graphics Core Next 302
  • MSI R6970 Lightning kontra Asus Matrix GTX 580 – starcie kart graficznych dla entuzjastów 193
  • GeForce GTX 580 – pięć kart, pięć różnych systemów chłodzenia, w tym wodny. Test porównawczy 48
  • Radeon HD 6770 i HD 6750 – AMD gra na bis 100
  • Radeon HD 6570 – wydajność 38
  • OC School – podkręcanie kart graficznych, materiał wideo 47
  • Test 104 kart graficznych DirectX 11 168
  • Radeon HD 7970 – „bombowe” wejście Graphics Core Next 302
  • Przerabiamy radeona HD 6950 na HD 6970 43
  • OC School, czyli szkoła podkręcania. Część 1. – karty graficzne 89
  • AMD Radeon HD 6990 – czy mamy nowego króla kart graficznych? 174
  • Radeon HD 6770 i HD 6750 – AMD gra na bis 100
  • GeForce GTX 590 – czy korona wydajności wróci do obozu Nvidii? 180
  • AMD Radeon HD 6790 – twardy przeciwnik dla GeForce'a GTX 550 Ti 119
  • MSI R6970 Lightning kontra Asus Matrix GTX 580 – starcie kart graficznych dla entuzjastów 193
  • Asus GTX580 DirectCU II i MSI N580GTX Lightning – pojedynek kart dla entuzjastów wydajności 108
  • Pogłębiony test Radeona HD 7970 – multi-GPU, GPGPU, kodowanie wideo, karty różnych firm, podkręcanie ekstremalne 130
  • AMD Radeon HD 6790 – twardy przeciwnik dla GeForce'a GTX 550 Ti 119
  • Radeon HD 7970 – „bombowe” wejście Graphics Core Next 302
  • Test 104 kart graficznych DirectX 11 168
  • GeForce GTX 590 – czy korona wydajności wróci do obozu Nvidii? 180
  • AMD Radeon HD 6990 – czy mamy nowego króla kart graficznych? 174
  • MSI R6970 Lightning kontra Asus Matrix GTX 580 – starcie kart graficznych dla entuzjastów 193
  • OC School – podkręcanie kart graficznych, materiał wideo 47
Więcej artykułów
Aktualności spokrewnione
  • Najnowsze
  • Popularne
  • Najwyżej oceniane
  • PowerColor przygotowuje jeszcze jednego Radeona HD 7970 9
  • Jak duży będzie w końcu Kepler? 18
  • AMD wprowadza karty FirePro V3900 15
  • Nowe karty graficzne Nvidii w szczegółach - specyfikacje, ceny i daty pojawienia się na rynku 111
  • Zwodowany Radeon HD 7970 11
  • Sea Islands, czyli następna generacja GPU firmy AMD 19
  • Radeon HD 7950 z trzema wentylatorami 15
  • Radeony 7700 i 7800 tuż tuż? 37
  • Radeon HD 7970 z pamięcią o szybkości ponad 2 GHz 7
  • Nowe karty graficzne Nvidii w szczegółach - specyfikacje, ceny i daty pojawienia się na rynku 111
  • Sea Islands, czyli następna generacja GPU firmy AMD 19
  • Jak duży będzie w końcu Kepler? 18
  • Zwodowany Radeon HD 7970 11
  • AMD wprowadza karty FirePro V3900 15
  • PowerColor przygotowuje jeszcze jednego Radeona HD 7970 9
  • Sea Islands, czyli następna generacja GPU firmy AMD 19
  • AMD wprowadza karty FirePro V3900 15
  • Zwodowany Radeon HD 7970 11
  • PowerColor przygotowuje jeszcze jednego Radeona HD 7970 9
  • Nowe karty graficzne Nvidii w szczegółach - specyfikacje, ceny i daty pojawienia się na rynku 111
  • Jak duży będzie w końcu Kepler? 18
Więcej aktualności
Informacje prasowe
  • Google Bouncer – sposób na ostateczne rozprawienie się ze szkodliwymi programami w Android Markecie? 0
  • JUŻ JEST AIWI MOTION DETECTOR KOZUMI W POLSCE! Dostępny tylko w  ACTION! Sprawdź już dziś! 2
  • Podróże z kamerą w samochodzie 1
  • ZyNOS 4.0: nowe certyfikowane oprogramowanie IPv6 do przełączników ZyXELa 0
  • Brennestuhl: domowy sprzęt elektryczny na wyciągnięcie ręki   1
  • Niezależny test programów antywirusowych - dostajesz to, za co płacisz 2
  • Komputronik Pro-DH600: kompaktowe desktopy dla firm 3
  • Legendarne etui G-Form do tabletów na polskim rynku 5
  • Genius na CES 2012 4
  • Trojany kradnące dane bankowe atakują tysiące komputerów każdego dnia 0
  • Xavax: tańsze ogrzewanie domu przez Internet          6
  • Tablety Lark FreeMe: tak tanio jeszcze nie było 2
  • Atak phishingowy na użytkowników Allegro - rzekome zwolnienie z prowizji 2
  • Polska premiera kart Radeon HD 7950: Asus, HIS, Gigabyte   2
  • 2011 - dobry rok dla graczy sponsorowanych przez SteelSeries. 2012 zapowiada się równie dobrze... 2
Więcej informacji prasowych
O autorze
Mieszko Krzykowski
Ostatnie publikacje:
  • Asus Eee Pad Transformer Prime – połączenie tabletu z netbookiem po raz drugi 108
  • Test pięciu smartfonów z klawiaturą QWERTY w stylu BlackBerry 47
  • HTC Titan i HTC Sensation XL – Windows Phone Mango kontra Android 2.3 w bliźniaczych smartfonach 106
  • BlackBerry Bold 9900 – mercedes wśród smartfonów 46
  • Samsung Galaxy Note – galaktyczna osobliwość 85
  • Fujitsu Stylistic Q550 – miły tablet, któremu ciąży system 23
Tagi
802.11b/g/n acta amd android apu arm asus atom beta core i5 core i7 cpu ddr3 ekran dotykowy geforce google gpu gry hd 7950 hd 7970 hdmi intel internet ivy bridge karta graficzna microsoft notebook nvidia piractwo prawo procesor radeon radeon hd samsung system operacyjny tablet usb usb 2.0 usb 3.0 wi-fi windows windows 8 www
Forum
  • Najnowsze
  • Popularne
Ilość odpowiedzi
  • 0
    Cooler master gladiator śrubki do ścianki22:39 | PiotreQ!
  • 0
    Wymienię HD5870+Zalman VF300022:39 | s0d
  • 14
    Słuchawki 250 zł muzyka22:39 | benek
  • 11
    Gothic 322:38 | Sad_MadMan
  • 5
    Kabel AUX - Dźwięk22:38 | Bosman712
  • 0
    Android 2,3 w tablecie za 129,99zł ?22:38 | ommm
  • 20
    Chłodzenie do GTX 58022:37 | aiki
  • 25536
    Prezentujemy swoje maszynki.22:36 | duniek
  • 5
    Nie codzienna zmiana coolera na CPU22:36 | Komandos85
  • 15
    Jaki maksymalnie procesor do ASROCK N68C-S UCC22:36 | Sad_MadMan
Ilość odpowiedzi
  • 25536
    Prezentujemy swoje maszynki.22:36 | duniek
  • 120
    Pomoc w wyborze imienia dla dziecka22:35 | chrupPL
  • 1893
    WĄTEK ZBIORCZY - Lista polecanych zasilaczy22:35 | yojo2
  • 3256
    FIFA 1222:34 | Cödename
  • 7907
    Karty Graficzne na Luty 2012r.22:34 | adonim
  • 1219
    Samsung Galaxy S 2...22:31 | SPYCHCIO
  • 4573
    The Elder Scrolls V Skyrim22:29 | Moonglow
  • 949
    Upiększamy graficznie Skyrim - Modyfikacje gry, Skyrim Enhancer Mod22:24 | azgan
  • 487
    Red Letter Day22:23 | zimek123456
  • 425
    LG 32ld450-czyli TV LCD full hd jako monitor22:23 | marcinx26
Przejdź do forum
Podręczna baza firm
  • Serwis komputerowy
  • Sklep komputerowy
  • Hosting
  • Odzyskiwanie danych
  • Dostawcy internetu
  • Projektowanie stron
Lokalizator firm i usług
Szukana fraza
Lokalizacja
dodaj firmę wyróżnij się w zumi wyznacz trasę
Facebook
  • Aktualności
    • Najnowsze
    • Najpopularniejsze
    • Najczęściej komentowane
    • Alfabetycznie
  • Artykuły
    • Najnowsze
    • Najpopularniejsze
    • Najczęściej komentowane
    • Alfabetycznie
  • Pliki
    • Najnowsze
    • Najpopularniejsze
    • Najwyżej oceniane
    • Alfabetycznie
  • Forum dyskusyjne
    • Najnowsze wypowiedzi
    • Twoje ostatnie wypowiedzi
    • Prywatne wiadomości
    • Lista użytkowników
    • Szukaj na forum
  • Informacje
    • O nas
    • Redakcja
    • Reklama
    • Kontakt
    • English
    • Pomoc
Copyright 2002-2012 Grupa Onet.pl SA, PCLab.pl Kopiowanie treści (w tym zdjęć) bez pisemnego zezwolenia zabronione.