Liczymy tylko układy obliczeniowe o wysokiej skali integracji, wykonane w nowoczesnych procesach litograficznych i produkowane seryjnie, pomijamy natomiast jądra zawierające głównie elementy pasywne, sensory optyczne (o nich więcej piszemy na następnej stronie) oraz układy, które mogły zostać wyprodukowane w sekrecie w małej ilości (bo o nich niczego się nie dowiemy).
Pozycje 4. i 7. na liście należy właściwie potraktować jako części jednego procesora. Najmniejsza wersja systemu z14 składa się z pięciu układów PU (główna cześć procesora, kontrolery pamięci, kontrolery PCI-E) i jednego układu SC (672 MB pamięci podręcznej wspólnej dla wszystkich PU, kontrola spójności pamięci).
Nie wiemy, gdzie na tej liście należy umieścić układy Larrabee i Knights Ferry Intela. Knights Ferry to prototypowy koprocesor, ogniwo pośrednie między Larrabee a pierwszym Xeonem Phi (Knights Corner). Mała liczba układów Knights Ferry została rozdana w 2010 roku firmom z branży superkomputerowej współpracującym z Intelem. Były wykonane w procesie technologicznym klasy 45 nm, miały 32 rdzenie, a jądro zajmowało ok. 700 mm² – nie wiadomo, ile dokładnie, bo nigdy nie były publicznie pokazywane. Wcześniej Intel wyprodukował pewną liczbę 24-rdzeniowych prototypów w litografii klasy 65 nm – mogły mieć zbliżoną powierzchnię.
Co mają ze sobą wspólnego układy z listy?
Żaden z nich nie jest przeznaczony do komputerów osobistych i dla prywatnych użytkowników. Wszystkie zostały zaprojektowane i sfinansowane z myślą o sprzedaniu ich firmom superkomputerowym, za sumy właściwe branży superkomputerowej. Serie kart graficznych takich, jak: GeForce Titan, GTX 980 Ti, GTX 1080 Ti, a teraz RTX 2080 Ti, to raczej popis technologiczny, gra prowadzona przez Nvidię z najbogatszymi użytkownikami pecetów. Pozostałym wielkim producentom mikroelektroniki nie przychodzą do głowy podobne działania.
Dlaczego większe układy są droższe?
Koszt produkcji mikroelektroniki jest wprost proporcjonalny do liczby wafli krzemowych poddawanych litografii. Za jednym zamachem obrabia się całą powierzchnię wafla o średnicy 300 mm. Niezależnie od tego, ile zmieści się na nim osobnych chipów, obróbka kosztuje tyle samo i trwa tyle samo.
Jednak koszt sprawnego chipu nie jest wprost proporcjonalny do jego powierzchni, ale rośnie wykładniczo. Większe jądra powodują, że marnuje się więcej miejsca przy krawędzi wafla. Poza tym punktowy defekt oznacza, że większą część wafla trzeba wyrzucić: uzysk, czyli stosunek liczby sprawnych jąder do liczby wszystkich wytworzonych, jest mniejszy.
Na jednym waflu mieści się ok. 65–70 procesorów TU102. Na tym samym waflu można by zmieścić ok. 170 procesorów GP104 (GeForce GTX 1080) albo ponad 800 GP108 (GeForce GTX 1030). Oczywiście, nie każdy defekt eliminuje procesor: wiele części GPU, np. pamięć podręczna, jest zaprojektowanych z zapasem – komórek pamięci jest nieco więcej, niż potrzeba, i tak dalej. Można też sprzedawać częściowo niesprawne układy jako niższy model.
Symulowane procesory GV100 na waflu 300-milimetrowym. Źródło: kalkulator jąder Silicon Edge
Uzysk w produkcji konkretnego procesora jest ściśle strzeżonym sekretem fabryki i zleceniodawcy. W dojrzałym procesie technologicznym, w jakim są produkowane procesory TU102, na pewno przekracza 50%, ale bylibyśmy zdumieni, gdyby przekraczał 80%.
A jeśliby pominąć koszt i uzysk, to czy można by wyprodukować jeszcze większy układ?
Jak duży może być pojedynczy chip?
Jest kilka czynników, które ograniczają maksymalną wielkość procesora. Załóżmy, że nie interesuje nas rozkładanie jego funkcji na osobne jądra krzemowe: odrzucamy procesory złożone z części, takie jak system IBM z14, albo planowane (przez Intela i nie tylko) osobne jądra połączone na przekładce krzemowej. Jaki jest największy pojedynczy układ, który można wyprodukować? Jest kilka czynników, które ograniczają jego rozmiar.
Reticle limit
Podstawowym ograniczeniem jest konstrukcja maszyn do litografii. W ostatniej dekadzie wszyscy wielcy producenci półprzewodników korzystają z podobnych maszyn, wykorzystujących laser dający światło ultrafioletowe o długości fali 193 nm. Maszyna do naświetlania wafli to stepper. Nazwa pochodzi stąd, że za jednym zamachem rzuca się na powierzchnię wafla obraz jednego prostokątnego jądra; potem przesuwa się wafel na następną pozycję (to jest krok – ang. step) i naświetla obraz drugiego, i tak dalej. W ostatnich latach steppery produkują dwie firmy: holenderska ASML oraz japoński Nikon.
Źródło: ASML
Laser służy do projekcji maski na powierzchnię wafla krzemowego. Maska to powiększony (zwykle w skali 4 : 1) obraz kształtów, które mają być wytworzone na powierzchni krzemu. Maska jest umieszczona przed układem soczewek, które ogniskują obraz na powierzchni krzemu. Pomiędzy ostatnią soczewką a powierzchnią krzemu jest jeszcze cienka warstwa płynu, która załamuje światło i jest niezbędna do zogniskowania obrazu. W stepperach z laserem o długości fali 193 nm używa się szklanych soczewek, ale w stepperach do litografii EUV, w których wykorzystuje się światło o długości fali 13,5 nm, trzeba używać zwierciadeł – szkło pochłania zbyt wiele tego światła.
Jedne i drugie steppery mogą wytworzyć ostry obraz o wielkości 26 mm × 33 mm, co daje powierzchnię 858 mm². Prześwit ostatniego elementu w całym systemie soczewek lub zwierciadeł nazywa się po angielsku reticle, a maksymalna wielkość naświetlanego obrazu to reticle limit. Ta wielkość jest częściowo naleciałością historyczną, ale zbudowanie systemu optycznego do nowoczesnej litografii o większym prześwicie byłoby bardzo trudne. Wszystkie soczewki i zwierciadła musiałyby być odpowiednio większe i równie precyzyjnie wykonane.
Największe maszyny do litografii służą do produkcji matryc LCD. Na przykład Nikon oferuje naświetlacz pozwalający rzucić obraz na płytę o rozmiarach 3370 mm × 2940 mm – zmieściłaby się jedna matryca o przekątnej 152 cali albo dwie matryce 132-calowe.
Pojęcie reticle limit czasem stosuje się nie w odniesieniu do prześwitu aparatury optycznej, ale do mniejszej wielkości, ustalonej przez firmę wykonującą litografię. Z powodu specyfiki danego procesu technologicznego (np. użytych masek czy egzotycznych technik naświetlania) ten limit może być nieco mniejszy od możliwości steppera.
Czy można obejść reticle limit?
Oczywiście, inne rodzaje litografii, w których używa się światła o innej długości fali i można sobie pozwolić na mniejszą precyzję, mogą wykorzystywać większe steppery lub naświetlać jeden obraz w dwóch częściach.
Najlepszym przykładem są przekładki krzemowe, czyli jądra o ogromnej powierzchni używane do połączenia większej liczby innych jąder, np. pamięci z procesorem. W pierwszym masowo produkowanym układzie z przekładką (AMD Fiji – procesor kart Radeon R9 Fury X) przekładka miała 1011 mm² – znacznie powyżej limitu. Przekładkę zaprojektowano tak, że wszystkie połączenia mieściły się w obszarze ograniczonym prześwitem steppera; krawędzie przekładki były puste.
Z kolei dzięki naświetlaniu w dwóch częściach w TSMC w 2013 roku wykonano przekładkę o wielkości 48 mm × 26 mm (1248 mm²), a obecnie TSMC produkuje przekładkę do procesora Nvidia GV100 (Volta) o wielkości ponad 1450 mm².
Dwukrotnego naświetlania nie używa się do jąder CPU lub GPU z dwóch powodów. Po pierwsze, najlepsze steppery potrafią pozycjonować wafel z dokładnością do ok. 2 nm – czyli dwie części rysunku mogą być względem siebie o tyle przesunięte. To dokładność na tyle duża, żeby można było wykonać przekładkę zawierającą wyłącznie przewody w procesie technologicznym klasy 65 nm, ale niewystarczająco dobra do nowoczesnych procesów litograficznych. Oczywiście, można by to obejść: pozostawić w środku układu strefę bez istotnych elementów na „zszycie” dwóch części, ale jest jeszcze ograniczenie ekonomiczne. Produkcja takiego układu wymagałaby dwa razy większej liczby masek, jak również dwa razy większej liczby naświetlań, która i bez tego jest głównym ograniczeniem w prędkości produkcji i uzysku. Każdy dodatkowy krok w procesie produkcyjnym zwiększa ryzyko wystąpienia defektów. W procesach litograficznych klasy 10–7 nm potrzeba co najmniej czterech naświetlań, żeby nanieść obraz jednej warstwy najmniejszych elementów. Jeden wafel przejeżdża przez stepper kilkadziesiąt razy; podwojenie tej liczby cofnęłoby korzyści ekonomiczne z użycia nowej litografii do stanu sprzed kilku lat.
Sensory optyczne, a przynajmniej część z elementami światłoczułymi (nowoczesne matryce do aparatów cyfrowych składają się z kilku osobnych kawałków krzemu, ułożonych jedne na drugich), można produkować w starszych procesach technologicznych. Pojedyncze elementy, które trzeba nanieść na powierzchnię wafla, są stosunkowo duże i nie wymagają takiej precyzji jak procesory. Większość nowoczesnych matryc używanych w popularnych kamerach czy smartfonach jest znacznie mniejsza niż wspomniany limit. Z kolei gigantyczne matryce do zadań specjalnych, np. takie jak do kamer Arri Alexa (ok. 54 mm × 26 mm), są często produkowane przez naświetlanie obrazu chipu w dwóch częściach, albo nawet łączenie obok siebie osobnych jąder krzemowych.
Ograniczenia w komunikacji
Innym ograniczeniem jest prędkość rozchodzenia się sygnału w obrębie jądra. W czasie jednego cyklu zegara o częstotliwości taktowania 4 GHz światło w próżni przebywa odległość ok. 7,5 cm. Prędkość przekazywania sygnału w połączeniach w mikroprocesorze, obniżona przez bufory, wzmacniacze, oporność i pojemność przewodów, jest ok. 20 razy mniejsza – czyli w czasie jednego cyklu 4-gigahercowego zegara można przesłać dane na kilka milimetrów. Na razie nie stanowi to dużego problemu, bo tylko małe obszary układu muszą być ze sobą zsynchronizowane w skali jednego cyklu zegara. Jeśli trzeba przesłać je szybciej, używa się grubszych połączeń i technik modulacji sygnału, które pozwalają przyspieszyć sygnałowanie prawie do 1/2 prędkości światła. Jednak ciągle prowadzi się prace nad optycznym sygnałowaniem w obrębie jednego jądra: mogłoby ono być szybsze, bardziej energooszczędne i zajmować mniej miejsca, niż sygnałowanie elektryczne. Na razie wciąż nie deklasuje ono pod tymi względami najlepszych technik sygnałowania elektrycznego.
Trudności mechaniczne i elektryczne
Produkcja dużych jąder nastręcza trudności, ponieważ cienkie plastry krzemu są kruche, a w dużej skali – również giętkie. Samo manipulowanie nimi w maszynach jest kłopotliwe. Muszą być połączone z innymi materiałami, często z obu stron (od strony aktywnej, z tranzystorami i połączeniami – z PCB, od pasywnej – z rozpraszaczem ciepła), i trzeba starannie dopasować te materiały pod względem rozszerzalności cieplnej. Wreszcie do dużych jąder (zakładając, że gęstość mocy wydzielanej z jądra pozostanie taka sama jak dziś) coraz trudniej jest doprowadzić zasilanie. Przykład tego można zobaczyć w kartach Tesla V100 w wersji z NVLink – procesor jest otoczony z obu stron elementami układu zasilania.
Podsumowanie
Jak wspomnieliśmy, najważniejsze są ograniczenia ekonomiczne. Od ponad 10 lat reticle limit jest taki sam, ale dopiero teraz pojawiła się ekonomiczna motywacja, żeby produkować masowo (a nie na potrzeby testowe) tak wielkie układy. Wystarczy rzucić okiem na listę z pierwszej strony, żeby zobaczyć, że motywację ekonomiczną do stworzenia każdego z nich zapewnia rynek centrów danych, a nie rynek komputerów osobistych. Jeśli uważacie, że nowe karty graficzne Nvidii są za drogie (oczywiście, macie rację), to nie kupujcie ich. Nvidia nie będzie niezadowolona, bo są inne branże, które chętnie zapłacą znacznie większe sumy za ten sam sprzęt.