artykuły

HotChips 2019: przegląd sprzętowych akceleratorów SI

8
4 września 2019, 15:21 Mateusz Brzostek

Xilinx Versal – FPGA z akceleratorem do zadań specjalnych

Firma Xilinx znana z produkcji układów FPGA przedstawiła swoje nadchodzące akceleratory z rodziny Versal. Choć producent stara się rozpropagować nazwę ACAP (Adaptive Compute Acceleration Platform), Xilinx Versal to wciąż FPGA – za to z pewnymi ważnymi dodatkami.

Versal ma być uniwersalnym akceleratorem do różnych, nie określonych z góry zadań. Do sekwencyjnych obliczeń ma dwa procesory ARM Cortex-A72. Do zadań kontrolnych lub wymagających przewidywalnej wydajności – dwa procesory Cortex-R5. Główną częścią jest pula programowalnych jednostek logicznych, podobnych do tradycyjnych układów FPGA.

Trzecią część obliczeniową Versal stanowią koprocesory SI: 400 jednakowych bloków, połączonych między sobą wysokoprzepustową siecią i wyposażonych we własną pamięć podręczną, oraz niecałe 2000 niewielkich procesorów DSP.

Procesory SI są stosunkowo niewielkie; każdy składa się z mniejszej części do obliczeń skalarnych i większej do obliczeń wektorowych, wspólnego dekodera instrukcji i interfejsu pamięci:

Blisko rdzeni SI są położone małe segmenty pamięci podręcznej L1: po 128 kB na każde 4 rdzenie, 12,5 MB w sumie. Cztery segmenty L1 są obsługiwane przez jeden większy segment pamięci L2, pomocnej przy wspóldzieleniu danych pomiędzy wszystkimi rdzeniami SI. Ponieważ cały układ jest konfigurowalny, można w razie potrzeby potraktować znacznie pojemniejszą pamięć rozłożoną pomiędzy konfigurowalnymi jednostkami logicznymi jako kolejny poziom w hierarchii pamięci dostepnej dla rdzeni SI.

 

Poza trzema typami maszyn obliczeniowych główną zaletą pierwszego układu Versal ma być wg. inżynierów Xilinx duża pula szybkiej pamięci położonej blisko jednostek obliczeniowych oraz bardzo szybka sieć łącząca różne segmenty układu. W układach FPGA poprzednich generacji skonfigurowanych jako akceleratory SI około 2/3 czasu oczekiwania na wynik obliczenia było konsekwencją opóźnień w komunikacji wewnątrz chipu. W Versal moc obliczeniowa ma być znacznie efektywniej wykorzystywana: nie podano przykładów praktycznych zastosowań, ale w popularnych elementarnych operacjach (splotach macierzy, transformatach Fouriera, deformacjach sygnałów radiowych) Versal ma osiągać 80-98% swojej maksymalnej teoretycznej efektywności.

Przedstawiony chip, Versal VC1902, to pierwszy model z serii. Miał posłużyć do sprawdzenia trafności tego projektu, przetestowania możliwości procesu produkcyjnego klasy 7 nm i opracowania oprogramowania dla serii Versal. Xilinx zaprezentował wykorzystanie Versal jako akceleratora uczenia sieci neuronowych, jako cyfrowej części nadajnika radiowego do sieci komórkowej 5G oraz jako cyfrowego radaru SAR.

Jak twierdzi producent, już pierwszy stepping był funkcjonalny i nadaje się do sprzedaży, a uzysk jest lepszy, niż oczekiwany. Xilinx planuje teraz następne układy z tej rodziny, łączące rdzenie ARM z FPGA i akceleratorami SI, z których niektóre mają być większe i wyposażone w zintegrowaną w obudowie pamięć HBM.

6