HotChips 2019: przegląd sprzętowych akceleratorów SI

Co jest interesującego w akceleratorach SI?

Nawet jeśli nie wiecie wiele o wszystkim, co dziś modnie jest nazywać „sztuczną inteligencją” (nietrafność tego sloganu na razie zignorujmy), to polecam przynajmniej rozejrzeć się po kolejnych stronach. Tematy podejmowane na konferencji HotChips odzwierciedlają to, czym projektanci układów scalonych najbardziej się interesują w danym roku. W zeszłym roku blisko połowa prelekcji była w mniejszym lub większym stopniu poświęcona SI; w tym roku była to przytłaczająca większość poruszonych tematów. Wystarczy spojrzeć na ogromne, skomplikowane układy, wymagające technik produkcji, na które nie można sobie pozwolić w typowych procesorach czy GPU, żeby wyobrazić sobie ile wysiłku inżynieryjnego i pieniędzy stoi za ich projektowaniem. Najnowsze procesy litograficzne, najbardziej egzotyczne techniki chłodzenia i zasilania i najbardziej nowatorskie architektury służą tu mnóstwu firm i organizacji innych niż AMD, Intel i Nvidia. Pokazujemy to wszystko, żeby Wam uzmysłowić, że najnowsze Core, Ryzen, GeForce albo Radeon są daleko od bycia pępkiem świata mikroelektroniki.

Po co specjalne architektury do akceleracji SI?

Czym się charakteryzuje albo różni akcelerator SI od innych procesorów? Czym się różni akcelerator wnioskowania od sprzętu do uczenia? Po co w ogóle specjalny sprzęt – czy nie można wykorzystać istniejących GPU i CPU do tych zadań?

Uniwersalne maszyny obliczeniowe są łatwo programowalne i można je dostosować do wielu nieznanych z góry zadań. Za to jeśli zadanie jest dobrze poznane i wiemy, ile i jakich obliczeń trzeba wykonać, ile danych przetworzyć, który etap procesu można zoptymalizować – wtedy można zaprojektować akcelerator, który nie jest tak uniwersalny albo tak łatwo programowalny, jak CPU lub GPU, ale znacznie szybszy w zadaniu, do którego został zbudowany.

Akceleratory uczenia mają zwykle bardzo dużo lokalnej pamięci, ponieważ pracują na bardzo dużych zestawach danych - przykładach, na których uczy się sieć. Akceleratory wnioskowania pracują zwykle na jednym obiekcie na raz. Muszą zmieścić w pamięci zwykle tylko wytrenowany na innej maszynie model oraz jedno datum. Na przykład jeśli chodzi o analizę obrazów, sieć uczy się na bardzo wielu obrazach jednocześnie i szuka cech wspólnych między nimi. Za to wnioskowanie dotyczy jednego odrębnego obrazu; każdy kolejny oznacza osobny, niezależny proces wnioskowania.

Uczenie sieci zwykle przeprowadza się wiele razy (w celach testowych), ale tylko w jednym miejscu i tylko dopóty, dopóki algorytm nie osiągnie pożądanej skuteczności. Wyuczoną sieć wykorzystuje się do wnioskowania wiele razy, ale często w różnych miejscach. Ponieważ zwiększanie zestawu danych wykorzystywanych do uczenia oraz zwiększanie złożoności sieci są pożądane, akceleratory uczenia są zwykle łączone po wiele w bardzo duże, równoległe systemy. Prostym przykładem są komputery DGX i HGX Nvidii, w których 8 lub więcej akceleratorów tworzy jeden system pracujący nad jednym zadaniem. Akceleratory wnioskowania - ponieważ wnioskują tylko na podstawie jednego przykładu - mogą być stosunkowo małe i rzadko potrzebują pracować w dużej, równolegle połączonej puli. Jeśli jest ich wiele, to każdy wykonuje odrębne zadanie. Ponieważ akceleratory uczenia często muszą być połączone równolegle i pracować nad jednym problemem, zwykle dużo wysiłku inżynieryjnego wkłada się w danie im bardzo szybkich, wysokoprzepustowych łącz do komunikacji między sobą nawzajem oraz z procesorem centralnym. Akceleratory wnioskowania nie muszą dysponować egzotycznymi formami komunikacji, bo przyjmują stosunkowo niewiele danych, a odsyłają tylko wynik wnioskowania.

Uczenie sieci wymaga dokładnej reprezentacji danych. Najskuteczniejsze jest wykorzystanie formatu FP32, czyli reprezentacja wag i danych w formie 32-bitowych liczb zmiennoprzecinkowych. Z kolei wnioskowanie zwykle można przeprowadzić bez utraty skuteczności nawet na znacznie uproszczonych danych: powszechnie wykorzystuje się liczby stałoprzecinkowe o 16-bitowej lub 8-bitowej precyzji, a prowadzi się też eksperymenty z jeszcze krótszymi typami danych. Dlatego akceleratory uczenia zwykle operują na 32 lub 16-bitowych liczbach zmiennoprzecinkowych. To określa budowę jednostek arytmetycznych oraz potrzebną przepustowość pamięci. Z kolei przy budowie akceleratora wnioskowania można znacznie oszczędzić budując węższe ścieżki danych i węższe, prostsze jednostki arytmetyczne. Obliczenia na liczbach całkowitych są nie tylko prostsze, ale i konsumują mniej energii.

Wreszcie pożądaną wydajność obu typów akceleratorów określa się w różny sposób. Akcelerator uczenia musi być szeroki - żeby duży zestaw danych zmieścił się w pamięci - i zapewnić jak najkrótszy czas od rozpoczęcia pracy do nauczenia sieci. Ponieważ zestaw danych jest ogromny, można go podzielić na różne sposoby, z których każdy jest dobry, o ile zapewnia szybsze wyuczenie sieci (co i tak zawsze trwa stosunkowo długo). W akceleratorze wnioskowania często nie wystarcza równoległość, bo ważny jest czas pomiędzy nadesłaniem danych a otrzymaniem wyniku wnioskowania. Dwa akceleratory mogące zanalizować każdy 1000 obrazów na sekundę nie muszą być sobie równe - lepszy jest ten, który zanalizuje każdy obraz w 1 mikrosekundę, niż ten, który przez 999 mikrosekund nie da żadnego wyniku, a po 1 sekundzie przedstawi wszystkie wyniki na raz.

Wydajność akceleratorów SI – MLPerf

Większość firm i uczelni prezentujących akceleratory SI albo nie podała oczekiwanej wydajności, albo podała liczby nieporównywalne z innymi. Porównanie wydajności akceleratorów SI jest trudne, szczególnie jeśli chodzi o uczenie: prawie każde zastosowanie, jakie chce przyspieszyć potencjalny użytkownik takiego akceleratora, jest specyficzne. Maksymalna teoretyczna wydajność w mnożeniu z dodawaniem, podawana chętnie w postaci TOPS (tensor operations per second) albo FLOPS (floating point operations per second – FMAC jest traktowana jako dwie operacje) ma mało wspólnego z wydajnością w praktycznych zastosowaniach. Zależnie od architektury sieci przesyłanie danych pomiędzy pojemną a szybką pamięcią lub między równoległymi akceleratorami wymaga mniej lub więcej czasu. Rzadkie macierze lub takie o nieregularnych wymiarach często powodują, że spora część jednostek obliczeniowych leży odłogiem. Wreszcie szybka ewolucja i powstawanie nowych technik w tej dziedzinie powodują, że określony dziś benchmark może się stać przestarzały już za pół roku.

Niezależne, standardowe testy wydajności są potrzebne z różnych względów: ułatwiają wybór potencjalnym nabywcom, pokazują stan techniki, który jest podstawą do dalszego rozwoju, pozwalają zaprojektować kolejne akceleratory. Próbę rozwiązania tego problemu podjęło konsorcjum MLPerf, w którym uczestniczy wiele znanych firm i uczelni (całą listę można znaleźć na stronie organizacji). MLPerf działa podobnie jak konsorcjum SPEC: określa zadanie obliczeniowe do wykonania, a potem zbiera nadesłane przez społeczność (zwykle producentów sprzętu) wyniki.

MLPerf bada osobno wydajność w uczeniu, a osobno we wnioskowaniu. Do dziś opublikowano już dwa zestawy wyników z kolejnych wersji benchmarków uczenia maszynowego, a lada dzień mają zostać opublikowane nowe testy we wnioskowaniu. Większość firm przedstawiających swoje nadchodzące produkty na HotChips zadeklarowała, że nadeśle wyniki w MLPerf w następnej rundzie zgłoszeń. Do tego czasu musimy się zadowolić znajomością architektury i mglistymi deklaracjami producentów.

Intel Nervana NNP-I 1000

Nervana NNP-I 1000 (nazwa robocza Spring Hill) to akcelerator wnioskowania na podstawie wyuczonych sieci neuronowych. Został zaprojektowany na zamówienie dużego klienta – nie powiedziano tego wprost, ale wedle wszelkich przesłanek chodzi o Facebooka. NNP-I to stosunkowo niewielki układ, którego budżet energetyczny można dostosować w zakresie od 10 do 50 W.

NNP-I 1000 to układ bardzo podobny do laptopowych procesorów Ice Lake U/Y. Zamiast 2 rdzeni x86 i układu graficznego wbudowano 12 bloków ICE, czyli Inferencing Compute Engine – „wnioskująca maszyna obliczeniowa” (skrót nie ma nic wspólnego z nazwą roboczą Ice Lake). NNP-I ma dwa rdzenie x86 w nowej architekturze Sunny Cove, osiem segmentów wspólnej pamięci podręcznej po 3 MB, kontroler PCI-E i kontroler pamięci LPDDR4X lub DDR4. Rdzenie x86, grupy dwóch ICE i bloki pamięci podręcznej są połączone magistralą pierścieniową podobnie jak w zwyczajnych laptopowych lub desktopowych procesorach. NNP-I można potraktować jako dwurdzeniowy procesor x86 z wbudowanym akceleratorem SI zamiast GPU – układ jest wykonany w tym samym procesie technologicznym, co procesory, ma niemal identyczną obudowę i podobnie jak zwykłe procesory, wymaga obecności chipsetu (w osobnym jądrze, ale tej samej obudowie).

Sercem każdego bloku ICE jest 4-wymiarowa macierz jednostek obliczeniowych operujących na 16-bitowych liczbach zmiennoprzecinkowych lub liczbach całkowitych o precyzji 1, 2, 4 lub 8 bitów. Ta część koprocesora zajmuje się głównie masowym mnożeniem i dodawaniem. W ICE jest też wbudowany procesor wektorowy, oparty na licencjonowanym od firmy Cadence projekcie Tensilica VP6, obrabiający 512-bitowe wektory liczb o tych samych typach i prezycji. ICE mają 4 MB lokalnej pamięci, która ma zminimalizować konieczność wymiany danych pomiędzy ICE a wspólną pamięcią podręczną lub zewnetrzną pamięcią LPDDR4X.

W przeciwieństwie do innych maszyn do SI Intela, NNP-I nie obsługuje formatu BFLOAT16. Zdaniem inżynierów nie było to potrzebne w docelowych zastosowaniach – prawdopodobnie większość wnioskowania jest prowadzona na 8-bitowych liczbach całkowitych. Jak twierdzi Intel, połączenie rdzeni x86, koprocesora wektorowego i sieci małych jednostek obliczeniowych zapewnia najlepszą wydajność w typowych zadaniach związanych z wnioskowaniem, gdzie spore części algorytmu nie dają się zrównoleglić, ale wymagają dużo przesuwania danych i muszą być ukończone szybko.

Akcelerator Spring Hill będzie produkowany w dwóch formach – niskoenergetycznej, zamontowanej na module M.2 wraz z kością pamięci LPDDR4X o pojemności 32 GB, oraz mniej energooszczędnej na karcie rozszerzeń PCI-E, z kilkoma kośćmi DDR4.

Można zauważyć, że jądro Spring Hill jest dość duże – ma wielkość porównywalną do 8-rdzeniowych chipów Intela z rodziny Coffee Lake/Comet Lake.

NNP-I w wersji na karcie rozszerzeń – ta testowa płyta Intela może prawdopodobnie działać samodzielnie.

Intel dostarcza już testowe układy swojemu „definitional partner”, czyli firmie, która określiła wymagania, jakie ma spełniać NNP-I – najprawdopodobniej chodzi o Facebooka. Inżynierowie Intela pracują obecnie nad dwoma kolejnymi generacjami NNP-I.

Intel Nervana NNP-T

Niemal dokładnie 3 lata temu Intel przejął firmę Nervana, zajmującą się projektowaniem sprzętu i oprogramowania do przyspieszania zadań związanych z SI. Pula wiedzy i doświadczenia Nervany została połączona z ich własną, podobnie jak w przypadku przejętej w podobnym czasie firmy Movidius. Akcelerator maszynowego uczenia Nervana NNP-T (nazwa robocza: Spring Crest) powstał na podstawie projektu rozpoczętego kiedy Nervana była jeszcze osobną firmą.

Akcelerator Spring Crest został zaprojektowany z myślą o jak najefektywniejszym wykorzystaniu dostępnych zasobów obliczeniowych. Jak twierdzi Intel, akceleratory Nvidii wykorzystują podczas typowych zadań związanych z trenowaniem SI nie więcej niż 1/3 swoich maksymalnych możliwości obliczeniowych. Spring Crest ma w tych samych warunkach wykorzystywać swoje zasoby obliczeniowe ok. 2 razy lepiej.

Głównym środkiem, który to zapewnia, jest stosunkowo pojemna i bliska jednostkom obliczeniowym pamięć. NNP-T ma 24 podstawowe bloki obliczeniowe – TPC (Tensor Processing Cluster). Każdy TPC ma 2,5 MB własnej pamięci podręcznej i jest połączony z sąsiednimi TPC za pomocą sieci szybkich połączeń punkt-punkt. Dane przechowywane w pamięci TPC są dostępne również dla innych TPC, dzięki czemu rzadziej trzeba sięgać do pamięci HBM, a częściej można wykorzystać dane już obecne gdzieś w jądrze obliczeniowym.

Wbudowana w TPC pamięć ma pewną funkcję odciążającą jednostki obliczeniowe: trójwymiarowe macierze można odczytać w oryginalnej albo transponowanej postaci, dzięki czemu nie trzeba wykonywać transpozycji jako osobnej, zaprogramowanej operacji. Jądro Spring Crest jest połączone z czterema stosami pamięci HBM2, łącznie 32 GB, w niejednolitej konfiguracji – sześć bloków TPC ma najszybszy dostęp do najbliższego kontrolera pamięci i nieco wolniejszy do pozostałych. Pamięć w ramach jednego procesora NNP-T jest zarządzana programowo, czyli nie działa jak wspólna, spójna pamięć podręczna. Jeśli kilka NNP-T jest połączonych bezpośrednio ze sobą, to dla oprogramowania wszystkie TPC wyglądają tak samo, niezależnie czy znajdują się w jednym procesorze czy w różnych.

Każdy TPC zawiera dwa bloki obrabiające macierze o rozmiarze 32×32 liczby w formacie BFLOAT16. NNP-T wykorzystuje własny zestaw instrukcji, który można częściowo dostosować do własnych potrzeb dzięki znanemu z uniwersalnych procesorów mechanizmowi aktualizacji mikrokodu. NNP-T można programować za pośrednictwem wysokopoziomowego interfejsu programowania nGraph, ale Intel zamierza udostępnić również dokumentację i kompilator języka NNP-T.

Procesor Spring Crest ma cztery łącza pozwalające na bezpośrednie połączenie większej liczby identycznych akceleratorów w klaster. Grupy czterech NNP-T są połączone każdy z każdym, a większa liczba, maksymalnie 1024 – w dowolnej topologii (Intel proponuje pierścień z grup 4 NNP-T). Model programowy NNP-T pozwala potraktować wszystkie zasoby obliczeniowe i całą pamięć jako dużą, jednolitą pulę; w ten sposób cały klaster może pracować nad jedną siecią.

Akceleratory Spring Crest będą dostępne w formie kart PCI-E 4.0 ×16 lub modułów OAM.

Cerebras

Firma Cerebras przedstawiła Wafer Scale Engine – największy jednolity obliczeniowy układ scalony w historii świata. Ma długość i szerokość ok. 21,5 cm, czyli nieco więcej, niż szerokość kartki A4.

To największy prostokąt, jaki mieści się na standardowym waflu krzemowym o średnicy 300 mm:

Jest produkowany w procesie technologicznym klasy 16 nm w fabrykach TSMC na Tajwanie i zawiera ok. 1,2 biliona tranzystorów (10¹² – polski, nie amerykański bilion).

Niedawno – w artykule „Jak duży może być układ krzemowy?” – wyjaśnialiśmy, jakie ograniczenia techniczne powodują, że produkuje się procesorów większych niż ok. 800 mm². Wafer Scale Engine (dalej „WSE”) pokonuje je dzięki specjalnej architekturze i dostosowanemu procesowi produkcji.

Najważniejszym ograniczeniem w wielkości układów krzemowych jest technika naświetlania, która pozwala rzucić na powierzchnię wafla ostry obraz o wielkości 26 × 33 mm. WSE składa się z 84 identycznych segmentów – jakby 84 obrazów jednego jądra. Do naświetlania każdego z nich używa się tego samego zestawu masek, więc czas produkcji i koszt masek są takie same, jak w przypadku typowych układów. Inne układy krzemowe zostają pocięte na pojedyncze części wzdłuż granic naświetlonych obszarów, ale WSE pozostaje w jednej części.

W typowej produkcji osobno naświetlane segmenty są od siebie zupełnie oddzielne. W WSE obszary naświetlane podczas produkcji najwyższych warstw, tych z metalowymi połączeniami o stosunkowo dużej skali, zachodzą na siebie częściowo. Choć stepper – maszyna do naświetlania – potrafi „zgrać ze sobą” sąsiednie rysunki z dokładnością do kilku nanometrów, połączenia w najwyższej warstwie metalowej mają szerokość ok. 700 nm. W takiej skali różnica kilku nanometrów nie ma znaczenia i pozwala połączyć osobne segmenty bez problemu.

Każdy z 84 segmentów WSE składa się z 4880 identycznych elementów obliczeniowych, z których około 300 jest zapasowych, niewymaganych do funkcjonowania całego układu. To konieczne, żeby zapewnić akceptowalny uzysk, czyli żeby jak największa część wyprodukowanych układów była sprawna. Elementów obliczeniowych oraz połączeń jest odpowiednio więcej, żeby można było zastąpić i ominąć niesprawne części układu.

Cały WSE zawiera ok. 400 tysięcy elementów obliczeniowych (producent jeszcze nie zdecydował, ile będzie włączonych i dostępnych w wersji handlowej) i jest jednolity z perspektywy programowania.

Każdy element obliczeniowy składa się z systemu komunikacji z sąsiednimi elementami, dekodera instrukcji, niewielkiej ilości pamięci (ok. 4 MB) i jednostek wykonawczych wyspecjalizowanych w dodawaniu połączonym z mnożeniem (FMAC, fused multiply-accumulate), czyli operacji najczęściej wykorzystywanej w symulacjach SI. Zestaw instrukcji pozwala na obliczenia na trójwymiarowych macierzach – mnożenie trójwymiarowej macierzy przez dwuwymiarową połączone z dodawaniem pojedynczej wartości może być jedną instrukcją.

Architektura dataflow

WSE ma architekturę typu dataflow – to koncepcja maszyny obliczeniowej pochodząca sprzed ponad 40 lat, w której przebieg programu nie jest odrębny od obrabianych danych ani sterowany centralnie. Nie ma jednego sekwencyjnego strumienia instrukcji ani licznika programu, jak w architekturach von Neumanna. Zamiast tego dane i instrukcje są połączone w porcje, które przesuwają się przez kolejne elementy obliczeniowe. Każde kolejne obliczenie jest wykonywane wtedy, kiedy potrzebne do niego dane stają się dostępne. Ponieważ nie ma sekwencyjnego strumienia instrukcji, a realizacja pętli i skoków nie jest łatwa, maszyny dataflow służą głównie do obliczeń o znanym i łatwym do przewidzenia przebiegu, które można wykonać równolegle i niezależnie na bardzo wielu porcjach danych. Jak wszystkie maszyny o architekturze dataflow, WSE nie ma globalnej pamięci: wszystkie dane potrzebne do obliczeń przesuwają się pomiędzy elementami obliczeniowymi razem z instrukcjami, a każdy element obliczeniowy ma sporo bardzo szybkiej (1 cykl opóźnienia) lokalnej pamięci.

Maszyny dataflow pracują w dużej skali asynchronicznie: choć każdy element obliczeniowy ma ustalone na stałe taktowanie, czas wykonania różnych obliczeń może być różny, a przepływ danych i kolejne kroki obliczeń odbywają się w takim tempie, w jakim są dostarczane pakiety danych i instrukcji.

Ogromna liczba elementów obliczeniowych, z których każdy ma własną lokalną pamięć (w sumie ok. 18 GB pamięci w całym WSE!) powodują, że WSE jest dobrze przystosowany do pracy nad całą siecią neuronową jednocześnie. 400 tysięcy elementów obliczeniowych zostaje podzielone na grupy, z których każda odpowiada jednej warstwie sieci. Dane „podróżują” w ramach WSE zgodnie z topologią sieci, jak na poglądowej ilustracji poniżej (w rzeczywistości regiony nie muszą być prostokątne).

Chłodzenie, zasilanie, obudowa, interfejsy wejścia/wyjścia

Zamontowanie, dostarczenie zasilania i danych oraz chłodzenie tak wielkiego układu nastręczają spore trudności. Ponieważ krzem i płyty drukowane mają różne współczynniki rozszerzalności cieplnej, układ nie może być sztywno przymocowany do laminatu w ten sam sposób, co zwykłe stosunkowo małe jądra krzemowe. Z pomocą TSMC opracowano specjalną warstwę łączącą jądro WSE z podłożem – niestety nie wyjaśniono, jaka jest jej natura, ani czemu zawdzięcza swoją elastyczność. Raczej nie chodzi o żaden jednolity materiał o anizotropowej przewodności prądu, bo te nie pozwalają na wytworzenie połączeń tak dużej gęstości i przewodności dość dobrej, żeby dostarczyć zasilanie do dużego układu. Sądzimy, że łącznik jest jakimś rodzajem kompozytowego, mało kruchego materiału.

Dostarczenie zasilania do układu o tak dużej powierzchni wymaga wielu równoległych połączeń przechodzących przez płytę, na której jest zamontowany układ. Zwykłe równoległe ścieżki przebiegające od położonego obok zasilacza byłyby zbyt długie i zbyt cienkie, żeby zapewnić wysoką jakość zasilania w centralnej strefie układu. Podobnie rozwiązano problem chłodzenia: cały WSE jest pokryty bardzo dużym blokiem wodnym podzielonym na niezależne regiony, do których zapewniono osobne dopływy zimnej wody.

Pakowanie i montaż układu chłodzenia odbywają się w fabrykach TSMC, w pomieszczeniach wyposażonych zgodnie z życzeniami Cerebras. WSE nie będzie sprzedawany osobno, ale razem z płytą główną, systemem chłodzenia, osobnymi układami wejścia/wyjścia (o których jeszcze nic nie ujawniono) jako zewnętrzny akcelerator SI podłączany przez sieć. Cerebras będzie też dostarczać narzędzia do programowania i kompilator przekształcający sieci neuronowe na graf odpowiadający architekturze dataflow i topologii WSE.

Jak twierdzi producent, dostarczone przez potencjalnych klientów zadania obliczeniowe zostały już przeniesione na WSE i maszyna sprawdza się doskonale. Nie ustalono jeszcze kiedy ten akcelerator trafi do sprzedaży, jakie będzie miał taktowanie ani ile z ponad 400 tysięcy elementów obliczeniowych będzie włączonych.

Huawei DaVinci – jedna architektura, różne skale

Huawei zaprezentował architekturę DaVinci, której głównym założeniem projektowym była doskonała skalowalność. Ta sama architektura miała nadawać się do niewielkich i energoszczędnych akceleratorów wbudowanych w procesor urządzenia noszonego lub telefonu, kamerę telewizji przemysłowej, komputer sterujący dronem, robotem albo samochodem, a w największej wersji: do budowy akceleratorów SI w serwerach i centrach danych. Architektura DaVinci miała nadawać się do okoliczności odległych od siebie o 6 rzędów wielkości pod względem budżetu energetycznego: od miliwatów do megawatów.

Wydaje się, że przeznaczenie jednej architektury i do wnioskowania, i do uczenia maszynowego, na dodatek w różnej skali, musi się wiązać z jakąś nieefektywnością; z całego spektrum zastosowań na pewno na którymś końcu bardziej efektywna byłaby specjalna, dostosowana do jednego zadania wersja. Huawei twierdzi, że dzięki zastosowaniu tej samej architektury w małych i dużych akceleratorach można znacznie oszczędzić i ułatwić sobie prace nad oprogramowaniem: niezależnie od urządzenia i skali używa się tych samych technik, bibliotek i kompilatorów. Oszczędność na systemie oprogramowania ma uzasadniać jednolitą architekturę.

Najmniejszą jednostkę architektury DaVinci Huawei nazywa rdzeniem. Każdy składa się z trzech głównych bloków obliczeniowych: jeden operuje na pojedynczych wektorach i służy m. in. do operacji kontrolnych, drugi operuje na macierzach dwuwymiarowych, trzeci – na macierzach trójwymiarowych.

Rdzenie DaVinci występują w trzech konfiguracjach różniących się liczbą jednostek arytmetycznych. W średniej konfiguracji DaVinci obrabia w jednym cyklu zegara dwuwymiarową macierz 8× 16 liczb i trówymiarową o każdym boku długości 16. Mała konfiguracja (stosowana np. w procesorach Kirin do smartfonów) ma 1/8 wydajności średniej wersji, a największa – dwukrotnie większą, niż średnia wersja.

Akceleratory AI z architekturą DaVinci są od dłuższego czasu wykorzystywane w praktyce. Pewna liczba rdzeni DaVinci w małej konfiguracji jest wykorzystywana w akceleratorze NPU wbudowanym w procesory Kirin, np. w smartfonie Huawei P20 i wielu nowszych.

Najnowszym wcieleniem tej architektury są dwa osobne układy do akceleracji SI. Ascend 310 jest przeznaczony do wnioskowania, zawiera dwa średnie rdzenie DaVinci, 8 rdzeni ARM Cortex-A55 i sprzętowy dekoder obrazów i wideo. Ascend 310 korzysta z zewnętrznej pamięci LPDDR4 i będzie podłączany przez USB lub PCI-E jako akcelerator w serwerach (podobnie jak Intel Nervana NNP-I 1000). Z kolei Ascend 910 to ogromny układ przeznaczony do wielkoskalowego uczenia maszynowego.

Zgodnie z ruchem wskazówek zegara: chińska moneta 1 juan o średnicy 25 mm, akcelerator Ascend 310, procesor serwerowy Huawei Kunpeng 920, akcelerator Ascend 910

Podobnie jak procesory AMD w architekturze Zen 2, Ascend 910 jest funkcjonalnie podzielony na dwa jądra: jedno (Vitruvian) zawiera maszyny obliczeniowe, drugie (Nimbus) interfejsy wejścia/wyjścia. Do tego w jednej obudowie zamontowano też 4 stosy pamięci HBM2.

Ascend 910 zawiera 32 rdzenie DaVinci (o najwydajniejszej konfiguracji) oraz 16 rdzeni ARM Taishan. To mikroarchitektura opracowana przez Huawei/HiSilicon na potrzeby procesorów serwerowych, zgodna z ARMv8.2 i obsługująca również część instrukcji z grupy ARMv8.4, m. in. instrukcje pozwalające na policzenie iloczynu skalarnego. Rdzenie DaVinci są pogrupowane razem z segmentami pamięci podręcznej (w sumie 32 MB) i połączone siecią wewnątrz czipu – to topologia bardzo podobna do serwerowych procesorów Skylake Intela. Wbudowano również dekoder wideo przetwarzający 128 strumieni H.264 lub H.265 jednocześnie. Poza wbudowaną pamięcią podręczną oraz zamontowaną we wspólnej obudowie pamięcią HBM2 ten akcelerator wykorzystuje też zewnętrzną pamięć DDR4.

Jądro I/O zawiera kontrolery interfejsów potrzebnych do podłączenia akceleratora w serwerach: PCI-E 4.0 do połączenia z głównym procesorem, CCIX do połączenia z innymi akceleratorami z zachowaniem spójności pamięci, Ethernet z RoCE oraz własne łącze Huawei o nazwie Hydra, które może służyć do połączenia wielu Ascendów 910 między sobą lub z procesorami serwerowymi Kunpeng.

Jądro Vitruvian jest produkowane w TSMC w najnowszej wersji procesu technologicznego klasy 7 nm, wykorzystującej naświetlanie EUV w najważniejszych warstwach. Ascend 910 to jeden z najbardziej złożonych w produkcji układów SoC: w jednej obudowie, na jednej przekładce krzemowej są zamontowane jądra Vitruvian, Nimbus, cztery stosy HBM2 oraz dwa niefunkcjonalne kawałki krzemu służące do wypełnienia bryły SoC i utworzenia gładkiej górnej powierzchni.

Cały układ ma TDP 350 W i maksymalną teoretyczną wydajność 256 TFLOPS (z precyzją FP16). Te akceleratory będą używane przede wszystkim w postaci modułów OAM (Open Compute Project Accelerator Module), montowanych równolegle do płyty głównej modułów podobnych do serwerowych GPU Nvidii albo koprocesorów Google TPU. Huawei będzie używać ich w serwerach, gdzie na jednej płycie będzie zamontowanych 8 OAM z Ascend 910, a na drugiej – dwa procesory Intel Xeon.

U góry szuflada z ośmioma OAM z procesorami Ascend 910; u dołu szuflada z procesorami Intel Xeon.

Następna generacja: z jeszcze mocniej zintegrowaną pamięcią

W dalszej przyszłości Huawei zamierza posunąć integrację wielu jąder krzemowych o wiele dalej. Inżynierowie planują eksperymentalny układ (na razie nie jest jasne, czy w takiej formie będzie produkowany masowo), w którym pod jądrem z maszynami obliczeniowymi będzie zintegrowana bardzo szybka pamięć SRAM – ta sama, która jest najczęściej wykorzystywana jako pamięci podręczne w większości mikroprocesorów. Pamięć SRAM jest stosunkowo niewrażliwa na temperaturę, znacznie szybsza i prostsza niż DRAM. W ten sposób powierzchnia centralnego, obliczeniowego jądra będzie w większości przeznaczona na układy obliczeniowe, a pamięć podręczna zostanie „wyprowadzona” do osobnych jąder zamontowanych pod spodem. Kolejnym, wolniejszym poziomem pamięci mają być specjalne wersje pamięci HBM2E, w których dwa stosy 8 jąder z pamięcią będą ułożone na wspólnym jądrze z kontrolerem. Poza chipem będzie podłączona jeszcze wolniejsza i pojemniejsza pamięć, prawdopodobnie DDR4.

Taki układ byłby przykładem bezprecedensowej integracji – jeden składałby się z 15 osobnych komponentów, być może wykonanych każdy w innej fabryce lub procesie technologicznym, albo ze 111 osobnych kawałków krzemu!

Xilinx Versal – FPGA z akceleratorem do zadań specjalnych

Firma Xilinx znana z produkcji układów FPGA przedstawiła swoje nadchodzące akceleratory z rodziny Versal. Choć producent stara się rozpropagować nazwę ACAP (Adaptive Compute Acceleration Platform), Xilinx Versal to wciąż FPGA – za to z pewnymi ważnymi dodatkami.

Versal ma być uniwersalnym akceleratorem do różnych, nie określonych z góry zadań. Do sekwencyjnych obliczeń ma dwa procesory ARM Cortex-A72. Do zadań kontrolnych lub wymagających przewidywalnej wydajności – dwa procesory Cortex-R5. Główną częścią jest pula programowalnych jednostek logicznych, podobnych do tradycyjnych układów FPGA.

Trzecią część obliczeniową Versal stanowią koprocesory SI: 400 jednakowych bloków, połączonych między sobą wysokoprzepustową siecią i wyposażonych we własną pamięć podręczną, oraz niecałe 2000 niewielkich procesorów DSP.

Procesory SI są stosunkowo niewielkie; każdy składa się z mniejszej części do obliczeń skalarnych i większej do obliczeń wektorowych, wspólnego dekodera instrukcji i interfejsu pamięci:

Blisko rdzeni SI są położone małe segmenty pamięci podręcznej L1: po 128 kB na każde 4 rdzenie, 12,5 MB w sumie. Cztery segmenty L1 są obsługiwane przez jeden większy segment pamięci L2, pomocnej przy wspóldzieleniu danych pomiędzy wszystkimi rdzeniami SI. Ponieważ cały układ jest konfigurowalny, można w razie potrzeby potraktować znacznie pojemniejszą pamięć rozłożoną pomiędzy konfigurowalnymi jednostkami logicznymi jako kolejny poziom w hierarchii pamięci dostepnej dla rdzeni SI.

Poza trzema typami maszyn obliczeniowych główną zaletą pierwszego układu Versal ma być wg. inżynierów Xilinx duża pula szybkiej pamięci położonej blisko jednostek obliczeniowych oraz bardzo szybka sieć łącząca różne segmenty układu. W układach FPGA poprzednich generacji skonfigurowanych jako akceleratory SI około 2/3 czasu oczekiwania na wynik obliczenia było konsekwencją opóźnień w komunikacji wewnątrz chipu. W Versal moc obliczeniowa ma być znacznie efektywniej wykorzystywana: nie podano przykładów praktycznych zastosowań, ale w popularnych elementarnych operacjach (splotach macierzy, transformatach Fouriera, deformacjach sygnałów radiowych) Versal ma osiągać 80-98% swojej maksymalnej teoretycznej efektywności.

Przedstawiony chip, Versal VC1902, to pierwszy model z serii. Miał posłużyć do sprawdzenia trafności tego projektu, przetestowania możliwości procesu produkcyjnego klasy 7 nm i opracowania oprogramowania dla serii Versal. Xilinx zaprezentował wykorzystanie Versal jako akceleratora uczenia sieci neuronowych, jako cyfrowej części nadajnika radiowego do sieci komórkowej 5G oraz jako cyfrowego radaru SAR.

Jak twierdzi producent, już pierwszy stepping był funkcjonalny i nadaje się do sprzedaży, a uzysk jest lepszy, niż oczekiwany. Xilinx planuje teraz następne układy z tej rodziny, łączące rdzenie ARM z FPGA i akceleratorami SI, z których niektóre mają być większe i wyposażone w zintegrowaną w obudowie pamięć HBM.

Tesla Self-Driving Computer

Projektanci z firmy Tesla pokazali komputer FSD (Fully Self-Driving Computer), który będzie instalowany w nowych samochodach elektrycznych Tesla oraz zastąpi poprzednią, prymitywniejszą wersję komputera pokładowego w starszych samochodach Tesla. FSDC zajmuje się zbieraniem danych z czujników (głównie kamer i radarów, ale również czujników typowych dla standardowych samochodów), wnioskowaniem o otaczającym środowisku na podstawie wyuczonej przez producenta sieci neuronowej oraz sterowaniem samochodem. W starszych samochodach Tesla montowano komputery z procesorami firmy MobilEye (dziś jest częścią Intela) lub kombinacją SoC Nvidia Tegra X2 i GPU Nvidia GP106 (tym samym, co w GeForce GTX 1060). Z czasem okazało się, że odpowiednio skuteczna sieć neuronowa jest zbyt duża – potrzebuje więcej pamięci i mocy obliczeniowej, niż oferowały zewnętrzne komputery, które mogłyby się zmieścić w ograniczonej przestrzeni i budżecie energetycznym dostępnym w już wyprodukowanych samochodach. Żeby stworzyć odpowiednio wydajny i przystosowany do konkretnego zadania komputer, w Tesli zaprojektowano własny akcelerator SI.

Ponieważ zadanie obliczeniowe do wykonania było doskonale znane, projektanci poświęcili większość wysiłku i czasu (którego było bardzo mało: tylko 14 miesięcy od rozpoczęcia projektu do gotowego chipu) na dostosowanie akceleratora do konkretnego zadania. Mniej istotne komponenty – układ graficzny, procesor ARM, kontroler pamięci, sprzętowe dekodery i kodery wideo – kupiono w postaci licencji, żeby oszczędzić czasu i mieć do dyspozycji sprawdzone rozwiązanie. Układ graficzny to nieznana wersja ARM Mali w architekturze Bifrost (nie najnowszej Valhall) z 16 jednostkami obliczeniowymi. Rdzenie ARM to trzy grupy po cztery Cortex-A72, każda ze wspólną pamięcią podręczną.

Największą część jądra zajmują dwa bloki NNA (Neural Network Accelerator). Jak twierdzą projektanci, 98,1% wszystkich obliczeń do wykonania podczas wnioskowania na podstawie obrazów z kamer to sploty macierzy, a 99,7% wszystkich obliczeń można zaprogramować jako mnożenia połączone z dodawaniem (FMA). Anatomia NNA jest podporządkowana temu zadaniu: centralną częścią NNA jest jednostka mnożenia macierzy o rozmiarze 96×96. Ten rozmiar wybrano ze względu na łatwość implementacji: większa macierz byłaby nieproporcjonalnie duża w stosunku do powierzchni zajmowanej przez połączenia i pamięć. Największą część powierzchni NNA zajmuje otaczająca jednostki obliczeniowe bardzo pojemna pamięć (32 MB) i ogromna liczba połączeń dostarczających dane z pamięci do obliczeń.

Nie tylko największa część obliczeń, ale również operacje pomocnicze – sumowanie i funkcja aktywacji – są przyspieszane sprzętowo.

Sieć neuronowa jest częściowo dopasowana do architektury akceleratora. Kolejne klatki obrazu z kamer są dzielone na kanały (zielony, czerwony, niebieski) i na regiony o wymiarach 96×96 pikseli. Dane wejściowe pozostają w lokalnej pamięci aż wszystkie piksele wszystkich kanałów jednego regionu zostaną przetworzone. W ten sposób korzyść z pojemnej lokalnej pamięci jest największa, a przesyłanie danych ograniczone do minimum.

Część macierzowa NNA operuje głównie na 8-bitowych liczbach całkowitych, co oszczędza sporo energii i powierzchni jądra. Zestaw instrukcji jest bardzo uproszczony: ponieważ zadanie obliczeniowe było znane, a oprogramowanie w całości kontrolowane przez Teslę, można było ograniczyć go do 8 operacji, z których tylko 5 służy do obliczeń. Część wektorowa ma bogatszy zestaw instrukcji i może przetwarzać również liczby zmiennoprzecinkowe o precyzji do 32b.

Dzięki dostosowanej architekturze i optymalizacjom w zarządzaniu taktowaniem i zasilaniem optymalizacjom NNA przejada mniej niż 1/4 z całego budżetu energetycznego układu (15 W z 72 W). Jak podali inżynierowie, cały układ jest 21 razy szybszy we wnioskowaniu na podstawie używanego w samochodach Tesla modelu, niż komputer poprzedniej generacji z procesorami Tegra X2 i GPU GP106. W innym miejscu podano, że dwa NNA mają łączną wydajność 73,6 TOPS. To tylko 6 razy więcej, niż deklarowana przez Nvidię maksymalna teoretyczna wydajność poprzedniej wersji komputera w teslach: dodatkowy zysk wydajności pochodzi z optymalizacji innych etapów obliczeń niż splot macierzy.

Komputer FSD jest montowany od kilku miesięcy w nowych samochodach Tesla. Zajmuje identyczną powierzchnię, co poprzednia wersja, ma taki sam rozkład złącz i konsumuje o 1/4 więcej energii: to było konieczne, żeby można było zainstalować go w starszych samochodach bez zmiany układu chłodzenia komputera. Obecnie jest chłodzony wodą, ale prelegenci wspomnieli też o chłodzeniu powietrznym (o ile nam wiadomo, nie jest stosowane w żadnym obecnym modelu samochodu Tesla).

Habana Goya

Habana to stosunkowo młoda firma projektująca akceleratory SI i oprogramowanie do nich. Ich pierwszym produktem jest układ o nazwie Goya (na cześć hiszpańskiego malarza), akcelerator wnioskowania. Goya jest już w sprzedaży; głównym odbiorcą są niewymienione duże firmy z branży usług sieciowych, które już od pewnego czasu wykorzystują ten akcelerator w praktyce.

Architektura chipu Goya jest znana tylko w przybliżeniu. Zasoby obliczeniowe to osiem jednostek TPC (Tensor Processing Core), które są maszynami wektorowymi o architekturze VLIW. Razem z rozłożonymi równomiernie obok nich (nie tak jak na diagramie poniżej) jednostkami GEMM zajmują się mnożeniem, dodawaniem i przekształcaniem macierzy i wektorów. Dokładny podział operacji i zestaw instrukcji obu rodzajów jednostek obliczeniowych nie zostały opisane.

Goya operuje na 8, 16 i 32-bitowych liczbach stałoprzecinkowych i zmiennoprzecinkowych. Precyzja operandów na różnych etapach obliczeń jest dostosowywana przez system oprogramowania; tam, gdzie to nie przynosi negatywnych skutków, można ją zmniejszyć do 8 bitów. Dzięki dostosowanej architekturze i zaawansowanej optymalizacji modeli Goya ma być kilkunastokrotnie szybszy we wnioskowaniu na podstawie sieci ResNet i podobnych niż GPU Tesla T4. System oprogramowania Goya może wnioskować na podstawie sieci dostarczonych w otwartym formacie ONNX – można zatem wykorzystać modele nauczone na dowolnym innym sprzęcie i systemie oprogramowania (prawdopodobnie ta elastyczność była wymaganiem postawionym przez potencjalnych klientów).

Chip Goya jest wykonany w TSMC w procesie technologicznym klasy 16 nm. Korzysta z zewnętrznej pamięci DDR4 z ECC (do 16 GB) i jego budżet energetyczny może być konfigurowany od 100 W do 200W. Akcelerator jest dostępny w formie karty rozszerzeń PCI-E 4.0 ×16.

Habana Gaudi

Gaudi (nazwany na cześć hiszpańskiego architekta) to drugi akcelerator firmy Habana, przeznaczony do przyspieszania uczenia sieci neuronowych. Ma architekturę podobną do układu Goya: chip składa się z dwóch rodzajów jednostek obliczeniowych (GEMM i TPC) oraz układu zarządzania dostępem do pamięci. Podobnie jak w przypadku akceleratora wnioskowania Goya, nie opisano szczegółowo wewnętrznej budowy układu. Wiemy tylko, że Gaudi ma największą efektywność, kiedy operuje na 16-bitowych liczbach zmiennoprzecinkowych (FP16 lub BFLOAT16), ale może też operować na liczbach FP32.

Gaudi ma zintegrowaną w jednej obudowie pamięć HBM2 – cztery stosy o łącznej pojemności 32 GB i przepustowości 1 TB/s. Chip jest produkowany w TSMC w procesie technologicznym klasy 16 nm i wymaga chłodzenia mogącego odprowadzić 300 W.

Gaudi można podłączyć do centralnego procesora za pomocą łącza PCI-E 4.0 ×16. Chip został zaprojektowany z myślą o łączeniu w duże sieci pracujące wspólnie nad jednym zadaniem. W układzie zintegrowano 20 kontrolerów 50-gigabitowej sieci Ethernet, które mogą również pracować jako 10 łącz o prędkości 100 Gb/s. Kontrolery obsługują RoCE (RDMA over Converged Ethernet), czyli technikę umożliwiającą bezpośredni dostęp do pamięci urządzenia podłączonego przez sieć, zarządzany sprzętowo i nie wymagający interwencji systemu operacyjnego. Ethernet z RoCE jest używany zamiast preferowanych przez inne firmy łącz zapewniających spójność pamięci (np. NVLink, CCIX, a w przyszłości CXL). Zdaniem inżynierów Habany korzyści z zastosowania tego rozwiązania przewyższają jego wady: operatorzy centrum danych mogą wykorzystać standardowe okablowanie i przełączniki Ethernet, a problem spójności pamięci Habana planuje rozwiązać dostosowując odpowiednio oprogramowanie. Nad wykorzystaniem sieci Ethernet zamiast własnych łącz pracują również Nvidia i HP, co dodaje wiarygodności zapewnieniom Habany.

Dzięki zintegrowanym łączom Ethernet i wykorzystaniu standardowych przełączników można połączyć 64 akceleratory Gaudi w jeden klaster o niemal dowolnej topologii, albo 8 chipów Gaudi połączonych każdy z każdym. Habana zamierza sprzedawać akceleratory Gaudi przede wszystkim w formie komputerów HLS-1: gotowych do użycia szuflad 3U z ośmioma Gaudi zainstalowanymi na modułach OAM. To konfiguracja bardzo podobna do komputerów HGX Nvidii: trzeba ją podłączyć do centralnego procesora okablowaniem PCI-E, ale każdy HGX Nvidii wymaga własnego hosta, podczas gdy akceleratory Gaudi można połączyć bezpośrednio między sobą przez Ethernet. Oprócz tego akceleratory Gaudi będą dostępne w postaci 2-slotowych kart rozszerzeń PCI-E lub pojedynczych modułów OAM.