artykuły

Intel Haswell – anatomia procesorów nadchodzącej generacji, część 2: energooszczędność, dodatkowa pamięć dla GPU, zasilanie

Haswell pod lupą, część 2.

56
24 marca 2013, 08:30 Mateusz Brzostek

Crystalwell – dodatkowa pamięć dla GPU

Wiadomo, że pamięć operacyjna o dużej przepustowości jest niezbędnym akcesorium do każdego poważnego układu graficznego. Zintegrowane GPU na przestrzeni lat miały różne sposoby na przechowywanie swoich danych. W chipsetach z magistralą FSB były po prostu podłączone do kontrolera pamięci i przez wspomnianą magistralę musiały się komunikować z główną pamięcią operacyjną, żeby skorzystać z wydzielonej dla siebie części. Kiedy AMD zintegrowało kontroler pamięci w procesorze i pozbyło się FSB, iGPU musiało się komunikować z kontrolerem pamięci przez łącze HyperTransport. Wraz z rozwojem iGPU przestało to wystarczać i w chipsetach serii 700 zaczęto wykorzystywać technikę SidePort – pamięć montowaną na płycie głównej, dostępną tylko dla układu graficznego. W końcu zintegrowano GPU i CPU na jednym kawałku krzemu i iGPU zostało podłączone do głównego systemu pamięci. W APU AMD układ graficzny jest skomunikowany dwoma łączami z kontrolerem pamięci. W procesorach Sandy Bridge i Ivy Bridge Intela GPU jest podłączone magistralą pierścieniową do pamięci podręcznej L3 i kontrolera pamięci.

Choć nowoczesne systemy RAM z szybkimi modułami DDR3 są bardzo wydajne, dalszy wzrost mocy „integr” wymaga udostępnienia iGPU jeszcze większej przepustowości pamięci. Najszybszy wariant iGPU w procesorach Haswell (nazwa robocza: GT3) ma mieć 40 jednostek obliczeniowych, ponad dwa razy więcej niż najszybsze iGPU w Ivy Bridge. Inżynierowie Intela wrócili do pomysłu dodatkowej pamięci dla GPU: procesory z GT3 będą mogły być produkowane w wersji z taką pamięcią zintegrowaną w obudowie procesora. Ta technika ma nazwę roboczą Crystalwell i polega na zapakowaniu razem z procesorem (ale na oddzielnym kawałku krzemu) maksymalnie 128 MB szybkiej pamięci, prawdopodobnie eDRAM.

Haswell z układem graficznym GT3 będzie oddzielnym wariantem krzemowego jądra, produkowanym w mniejszych ilościach ze względu na duże koszty i stosunkowo małe zapotrzebowanie. Oprócz samej nazwy i zasady działania techniki Crystalwell nie poznaliśmy dotąd zbyt wiele, dlatego pokusimy się o garść ostrożnych spekulacji.

Po pierwsze, choć plotki internetowe powtarzają termin cache L4, ciągle nie wiemy, czy jego stosowanie jest uzasadnione. Taka nazwa sugeruje, że Crystalwell stanowi dodatkowy poziom pamięci między L3 a RAM. Jest to, oczywiście, możliwe, ale mało prawdopodobne: wymagałoby przebudowania kontrolera pamięci, co jest zbyt kosztownym i ryzykownym posunięciem. Dodatkowa pamięć nie jest też zapewne podłączona do magistrali pierścieniowej – dodanie kolejnego urządzenia do pierścienia wymagałoby znacznego przyrostu liczby połączeń (kabli) w warstwach metalowych procesora. Poprowadzenie okablowania magistrali pierścieniowej poza jedno jądro byłoby niesłychanie trudne. Co więcej, eDRAM czy inny typ pamięci pozwalający zbudować czip o małej powierzchni i pojemności do 128 MB będzie znacznie wolniejszy od szybkiej SRAM, z jakiej jest zbudowana L3. Dwa różne typy pamięci podłączone jako równoprawne urządzenia do pierścienia skomplikowałyby kontrolę nad magistralą.

Najbardziej prawdopodobnym wariantem jest eDRAM o stosunkowo dużej przepustowości i dużym opóźnieniu służąca wyłącznie układowi graficznemu. Dodatkowa magistrala byłaby łatwa do przeprowadzenia, a zmiany projektowe ograniczyłyby się do układu graficznego – nie trzeba by przeprojektowywać magistrali pierścieniowej ani kontrolera pamięci. To byłaby najmniej ryzykowna i najmniej kosztowna opcja, niekłócąca się z ideą modularności w konstrukcji procesorów – Intel zwykle trzyma się właśnie takich rozwiązań.

Plotki mówią, że dodatkowa pamięć będzie umieszczona na krzemowej przekładce. To znaczy, że zamiast przylutowywać krzemowe jądra bezpośrednio do podłoża (mniejsza zielona płytka na ilustracji), jądro procesora i jądro Crystalwell umieszczono na dodatkowej płytce krzemowej, a dopiero tę na podłożu.

Połączenia między dwoma jądrami mają być poprowadzone po tej krzemowej przekładce zamiast w obwodach drukowanych na podłożu. To daje szereg korzyści, przede wszystkim wydajność: magistrala pamięci poprowadzona po przekładce może pracować znacznie szybciej niż w obwodzie drukowanym. Ponieważ kable w krzemie są krótsze i cieńsze, magistrala będzie tracić mniej prądu na pasożytnicze opory i pojemności, a lepsza jakość sygnału umożliwi szybsze taktowanie magistrali i prostszą konstrukcję punktów końcowych. 

Oczywiście, jest też druga strona medalu: krzemowa przekładka to wciąż stosunkowo młoda technika, która pierwszy raz zostanie wykorzystana na tak dużą skalę. Nawet po dopracowaniu i rozwinięciu technik produkcji wciąż będzie to znacznie droższe od tradycyjnej obudowy, nie wspominając o koszcie dodatkowego jądra z pamięcią. To drugie można co prawda wytwarzać w starszym procesie technologicznym: Intel ma wciąż spore możliwości produkcyjne w fabrykach nieprzystosowanych do procesu 22 nm, ale i tak dodatkowy krzem kosztuje. Układy z GT3 na pewno będą droższe w produkcji od wariantu bez Crystalwell, lecz narzut na najwyższych modelach procesorów jest tak duży, że trudno wnioskować, jak to wpłynie na ceny laptopów dla końcowego odbiorcy.

3