Technologie i wydarzenia
Artykuł
Mateusz Brzostek, Sobota, 25 sierpnia 2018, 14:01

Podczas prezentacji kart graficznych GeForce RTX szef Nvidii Jen-Hsun Huang powiedział, że Turing to drugi największy wykonany przez Nvidię chip i że nie da się już zrobić większego. To częściowo prawda. Ponieważ mało kto wie, jakie podobne układy powstały do tej pory, postanowiliśmy spisać znane nam gigantyczne jądra.

Liczymy tylko układy obliczeniowe o wysokiej skali integracji, wykonane w nowoczesnych procesach litograficznych i produkowane seryjnie, pomijamy natomiast jądra zawierające głównie elementy pasywne, sensory optyczne (o nich więcej piszemy na następnej stronie) oraz układy, które mogły zostać wyprodukowane w sekrecie w małej ilości (bo o nich niczego się nie dowiemy).

Lp.ProcesorPowierzchniaRok, producentUżyty w...
1 Nvidia GV100
(Volta)
815 mm² 2017
TSMC 12 nm
Tesla V100, GeForce Titan V
2 Fujitsu
SPARC64 XII
795 mm² 2017
TSMC 20 nm
Serwery SPARC M12
3 Nvidia TU102
(Turing)
754 mm² 2018
TSMC 12 nm
GeForce RTX 2080 Ti, Quadro RTX 8000, Quadro RTX 6000
4 IBM z14 PU 737 mm² 2017
GlobalFoundries 14 nm
Część procesora z14
5 Intel KNC
(Knights Corner)
705 mm² 2011
Intel 22 nm
Xeon Phi x100
6 Intel Tukwila 699 mm² 2010
Intel 65 nm
Itanium 9300
7 IBM z14 SC 696 mm² 2017
GlobalFoundries 14 nm
Część procesora z14
8 Intel Skylake XCC 694 mm² 2017
Intel 14 nm
Xeon Scalable
9 Intel KNL
(Knights Landing)
686 mm² 2015
Intel 14 nm
Xeon Phi x200
10 Intel Haswell EP 622 mm² 2015
Intel 22 nm
Xeon E7 v3
11 Nvidia GP100
(Pascal)
610 mm² 2016
TSMC 16 nm
Tesla P100, Quadro GP100

Pozycje 4. i 7. na liście należy właściwie potraktować jako części jednego procesora. Najmniejsza wersja systemu z14 składa się z pięciu układów PU (główna cześć procesora, kontrolery pamięci, kontrolery PCI-E) i jednego układu SC (672 MB pamięci podręcznej wspólnej dla wszystkich PU, kontrola spójności pamięci).

Nie wiemy, gdzie na tej liście należy umieścić układy Larrabee i Knights Ferry Intela. Knights Ferry to prototypowy koprocesor, ogniwo pośrednie między Larrabee a pierwszym Xeonem Phi (Knights Corner). Mała liczba układów Knights Ferry została rozdana w 2010 roku firmom z branży superkomputerowej współpracującym z Intelem. Były wykonane w procesie technologicznym klasy 45 nm, miały 32 rdzenie, a jądro zajmowało ok. 700 mm² – nie wiadomo, ile dokładnie, bo nigdy nie były publicznie pokazywane. Wcześniej Intel wyprodukował pewną liczbę 24-rdzeniowych prototypów w litografii klasy 65 nm – mogły mieć zbliżoną powierzchnię.

Co mają ze sobą wspólnego układy z listy?

Żaden z nich nie jest przeznaczony do komputerów osobistych i dla prywatnych użytkowników. Wszystkie zostały zaprojektowane i sfinansowane z myślą o sprzedaniu ich firmom superkomputerowym, za sumy właściwe branży superkomputerowej. Serie kart graficznych takich, jak: GeForce Titan, GTX 980 Ti, GTX 1080 Ti, a teraz RTX 2080 Ti, to raczej popis technologiczny, gra prowadzona przez Nvidię z najbogatszymi użytkownikami pecetów. Pozostałym wielkim producentom mikroelektroniki nie przychodzą do głowy podobne działania.

Dlaczego większe układy są droższe?

Koszt produkcji mikroelektroniki jest wprost proporcjonalny do liczby wafli krzemowych poddawanych litografii. Za jednym zamachem obrabia się całą powierzchnię wafla o średnicy 300 mm. Niezależnie od tego, ile zmieści się na nim osobnych chipów, obróbka kosztuje tyle samo i trwa tyle samo.

Jednak koszt sprawnego chipu nie jest wprost proporcjonalny do jego powierzchni, ale rośnie wykładniczo. Większe jądra powodują, że marnuje się więcej miejsca przy krawędzi wafla. Poza tym punktowy defekt oznacza, że większą część wafla trzeba wyrzucić: uzysk, czyli stosunek liczby sprawnych jąder do liczby wszystkich wytworzonych, jest mniejszy.

Na jednym waflu mieści się ok. 65–70 procesorów TU102. Na tym samym waflu można by zmieścić ok. 170 procesorów GP104 (GeForce GTX 1080) albo ponad 800 GP108 (GeForce GTX 1030). Oczywiście, nie każdy defekt eliminuje procesor: wiele części GPU, np. pamięć podręczna, jest zaprojektowanych z zapasem – komórek pamięci jest nieco więcej, niż potrzeba, i tak dalej. Można też sprzedawać częściowo niesprawne układy jako niższy model. 

Symulowane procesory GV100 na waflu 300-milimetrowym. Źródło: kalkulator jąder Silicon Edge

Uzysk w produkcji konkretnego procesora jest ściśle strzeżonym sekretem fabryki i zleceniodawcy. W dojrzałym procesie technologicznym, w jakim są produkowane procesory TU102, na pewno przekracza 50%, ale bylibyśmy zdumieni, gdyby przekraczał 80%.

A jeśliby pominąć koszt i uzysk, to czy można by wyprodukować jeszcze większy układ?

Ocena artykułu:
Ocen: 43
Zaloguj się, by móc oceniać
buggeer (2018.08.25, 14:23)
Ocena: 31

0%
Świetny artykuł, ciekawe informacje a jednocześnie bardzo przyjemnie się czytało.
freq86 (2018.08.25, 14:25)
Ocena: 18

0%
Podoba mi się tytuł pierwszej strony artykułu.
PrimoGhost (2018.08.25, 14:38)
Ocena: 19

0%
Dzięki Mateusz. Bardzo przyjemny i znakomity artykuł w tym całym młynie i ściekowych informacjach na temat nowych kart.
Canni (2018.08.25, 14:47)
Ocena: 4

0%
No i wiadomo czemu RTX 2080Ti jest taki drogi :)
DaviM (2018.08.25, 15:24)
Ocena: 7

33%
Nie puszek, wynika z niego, że światło w próżni w tej samej jednostce czasu jest w stanie przebyć większą drogę niż elektron w przewodzie miedzianym poprzecinanym co chwilę przez tranzystory i inne zbędne badziewie :)
No i z tego wynikają kolejne sprawy, ale do nich jeszcze nie dotarłeś :)
Przy czym pamięć mam słabą, ale taką wiedzę chyba dzieciaki zdobywają w szkole podstawowej/gimnazjum (co szybciej biegnie: światło czy prąd w przewodzie).
Edytowane przez autora (2018.08.25, 15:28)
gregorio (2018.08.25, 15:49)
Ocena: 17

0%
Limit powierzchni ukladow jak widac osiagniety, litografie mozna ulepszyc gdzies do maksymalnie 4x wiekszej ilosci tranzystorow na tej samej powierzchni, o 2x wieszym taktowaniu raczej nikt nie marzy. Wiec stoimy przed wydajnosciowa sciana?
agent_x007 (2018.08.25, 16:05)
Ocena: 1

0%
TSMC dla Volty/Turinga używa procesu specjalnie 'skrojonego' dla NVidii : 12nm (FFN).
FFN oznacza 'FinFet Nvidia' i prawdopodobnie chodzi o optymalizację produkcji gigantycznych chipów.
Edytowane przez autora (2018.08.25, 16:05)
Zaloguj się, by móc komentować
Artykuły spokrewnione
Facebook
Ostatnio komentowane