Rdzenie Tensor, Nvidia Volta i wpływ Google na uczenie maszynowe

ENIAC – od niego wszystko się zaczęło

Żyjemy we wspaniałych czasach, które pozwalają nam śledzić szybki postęp techniczny. Choć przodek współczesnego komputera powstał już w 1883 roku, za sprawą Charlesa Babbage’a i jego maszyny liczącej, prawdziwy przełom nastąpił dopiero 60 lat później. Podczas II wojny światowej, w maju 1943 roku, narodził się ENIAC (Electronic Numerical Integrator And Computer). Mówiąc dokładniej: pierwszego lipca rozpoczęto realizację projektu, wtedy tajnego, o nazwie Project PX. Kosztował on około 486 tysięcy dolarów, a prace nad jego ukończeniem trwały aż do 15 lutego 1945 roku. W swojej finalnej wersji mieścił się w 42 szafach o wysokości 3 m, szerokości 60 cm i głębokości 30 cm, ważył 27 ton i zajmował powierzchnię 140 m². Na procesor składało się wtedy 18 800 lamp elektronowych, 6000 komutatorów, 1500 przekaźników i 50 tysięcy oporników.

Co ciekawe, specjalnie zaprojektowany termostat zatrzymywał działanie szafy, gdy temperatura w jej wnętrzu przekraczała 48 stopni Celsjusza, a system wentylacyjny wykorzystywał dwa silniki Chryslera o łącznej mocy 24 KM. ENIAC liczył wtedy w systemie dziesiętnym, a nie, jak dzisiejsze komputery, w binarnym, ale wykonywał 5 tysięcy dodawań na sekundę. Do obsługi komputera służyły cztery pulpity sterownicze, które wymagały wprowadzania wszystkich informacji ręcznie. To sprzyjało pomyłkom i zajmowało mnóstwo czasu, a na domiar złego cały sprzęt ulegał awarii średnio co pół godziny.

Mimo wszystko dzięki temu komputerowi nie tylko regulowano tablice balistyczne, ale też analizowano budowę bomby wodorowej, projektowano tunele aerodynamiczne czy obliczano wartość liczby pi. ENIAC zakończył swój żywot po 10 latach, w 1955 roku. Niektóre jego fragmenty można obejrzeć w muzeum Smithsonian Institution w Waszyngtonie.

Zauważcie, że to wszystko wydarzyło się ponad 70 lat temu. ENIAC oficjalnie zapoczątkował erę informatyczną. Postęp techniczny wystrzelił niczym pocisk rakietowy, by w ciągu kilku dekad zapewnić nam wspaniałe rozwiązania w każdym aspekcie życia. Dziś nosimy w swoich kieszeniach czy na nadgarstkach małe komputery, mamy je w samochodach, pralkach czy lodówkach. Nie możemy już zatrzymać tej pędzącej lokomotywy postępu i wrócić do czasów analogowych, nad czym wielu z Was ubolewa.

Przyszłość owiana jest mgłą tajemnicy, rządzą nami wielkie korporacje, a te najbogatsze istnieją dzięki, a jakże, komputerom. Google, Apple, Microsoft czy Facebook nie stoją jednak w miejscu i stale inwestują setki milionów dolarów w nowe rozwiązania techniczne.

W tym artykule skupię się na jednostkach wynalezionych przez pierwszego z wymienionych gigantów, nazwanych Tensor Processing Unit, które zapewniają nam szereg fascynujących możliwości.

Jakiś czas temu Nvidia zaprezentowała nowe układy graficzne z rodziny Volta. Jedna z kart została oficjalnie przedstawiona jako Tesla V100, a w jej wnętrzu znajduje się między innymi 640 rdzeni Tensor. Wiele osób zaznajomionych z tym zagadnieniem było bardzo podekscytowanych, bo Tesla V100 zapewnia moc obliczeniową przekraczającą 100 teraflopów (bilionów operacji zmiennoprzecinkowych na sekundę), właśnie dzięki rdzeniom Tensor. To pierwszy układ graficzny w historii, który przekroczył tę granicę w pojedynkę.

Tensor Processing Unit – skąd się wzięły i do czego służą?

Zacznijmy od tego, czym jest specjalizowany układ scalony (ang. application-specific integrated circuit, ASIC). To układ zaprojektowany do określonego zadania. Od układów ogólnego przeznaczenia odróżnia go to, że może wykonać swoją pracę nie tylko niezawodnie, zgodnie z wolą i pomysłem projektanta, ale także taniej, szybciej i przy mniejszym zużyciu energii. Największe wady specjalizowanych układów scalonych to koszt ich wytworzenia i mniejsza uniwersalność od układów scalonych ogólnego przeznaczenia (a takimi są na przykład „zwykłe” procesory).

Tak wygląda pierwsza płytka drukowana z jednostkami Tensor – prosto od Google

Tensor Processing Unit (TPU) to nic innego jak specjalizowany układ scalony, zaprojektowany z myślą o rozwoju uczenia maszynowego, czyli nauk zajmujących się sztuczną inteligencją. Jej początki sięgają 1952 roku, kiedy to Arthur Samuel z firmy IBM rozpoczął prace nad programem do szkolenia zawodników szachowych. Prawdziwym przełomem był projekt powstały na Uniwersytecie Stanforda w 1965 roku, o nazwie Dendral, dotyczący automatyzowania analizy i identyfikacji molekuł związków organicznych. Wyniki przeprowadzonych wtedy badań zapisały się w historii świata jako pierwsze odkrycie dokonane przez komputer.

Badania nad uczeniem maszynowym ruszyły pełną parą na początku lat 90., gdy Gerald Tesauro stworzył program TD-Gammon. Rywalizował on z najlepszymi graczami w planszowej grze backgammon (inaczej tryktrak). Program, żeby osiągnąć tak wysoki poziom, musiał rozegrać ponad milion gier, ale z każdej wyciągał wnioski. Później pojawiły się komputery, które potrafiły pokonać mistrzów szachowych. Najpierw w 1997 roku uczynił to Deep Blue, który zwyciężył z ówczesnym mistrzem świata Garrim Kasparowem. W 2006 roku ogólnodostępny program szachowy Fritz 10 pokonał mistrza świata Władimira Kramnika.

Władimir Kramnik podczas pojedynku z programem Fritz 10

Koniec lat 90. przyniósł rozwój uczenia maszynowego pod kątem wyszukiwarek internetowych dla Google, Yahoo czy Binga. Dziś powszechnie stosuje się zaawansowane algorytmy w celu optymalizacji wyników wyszukiwania czy dopasowania reklam pod określone zainteresowania konsumenta.

Żeby zrozumieć ideę, która stoi za rdzeniami Tensor, trzeba wiedzieć, na czym dokładnie polega uczenie maszynowe. Zostało ono wielokrotnie opisane przez różnych uczonych z całego świata. W skrócie polega na osiągnięciu określonych rezultatów opartych na wiedzy fragmentarycznej, doskonaleniu się, tworzeniu nowych pojęć i wnioskowaniu indukcyjnym.

Dobrze opisują to słowa Donalda Michiego z 1991 roku:

„System uczący się wykorzystuje zewnętrzne dane empiryczne w celu tworzenia i aktualizowania podstaw do udoskonalonego działania na podobnych danych w przyszłości oraz wyrażania tych podstaw w zrozumiałej i symbolicznej postaci”.

Dzięki (głębokiemu) uczeniu maszynowemu naukowcy mogą znacznie szybciej i dokładniej zgłębiać zagadnienia, które wcześniej były niezrozumiałe dla człowieka. O wiele szybciej analizują wszelkie bazy danych, szukając w nich zależności, i ułatwiają sobie zrozumienie, zbadanie i opracowanie rozwiązań bardzo złożonych problemów. Możliwe zastosowania uczenia maszynowego są niezliczone, a dziś wykorzystuje się je między innymi w tłumaczach internetowych (takich jak Google Translate), w interaktywnych biurach obsługi (między innymi w firmach kurierskich), w kierowaniu pojazdami czy statkami kosmicznymi i automatyzowaniu wydobycia przeróżnych surowców.

Dzięki tej wiedzy łatwiej Wam będzie wyobrazić sobie, do czego mogą służyć rdzenie Tensor. Publicznie zaprezentowano je po raz pierwszy w 2016 roku, podczas Google I/O (konferencji dla twórców oprogramowania). Firma poinformowała wtedy, że korzysta z TPU już od 12 miesięcy. W odróżnieniu od jednostek graficznych Tensory zostały opracowane w celu maksymalizacji wydajności obliczeń niskiej precyzji (8-bitowych), wyraźnie natomiast niedomagają podczas rasteryzacji czy mapowania tekstur. Nie nadają się więc do gier, ale nigdy nie miały do tego służyć (choć Nvidia mocno na tym polu kombinuje). Tensor Processing Unit opracowano w ramach struktury TensorFlow Google, co pozwala wykorzystać je między innymi w usłudze Google Street View. Firma użyła ich do przetwarzania tekstu zawartego w bazie danych Street View i skatalogowała wszystkie informacje w ciągu niespełna pięciu dni. TPU są także używane do przetwarzania blisko 100 milionów zdjęć każdej doby.

Czym jest TensorFlow i gdzie jest wykorzystywany?

TensorFlow to zestaw bibliotek oprogramowania (rozpowszechnianych w ramach tzw. open-source) przeznaczonych do rozwoju uczenia maszynowego. Zostały zaprojektowane specjalnie do budowy i szkolenia sieci neuronowych. Pozwalają wykrywać i tworzyć wzorce i korelacje analogiczne do ludzkiego uczenia się i rozumowania. Biblioteki TensorFlow zostały opracowane przez zespół Google Brain, początkowo tylko na własny użytek. Ich pierwszą wersję wydano 9 listopada 2015 roku, a publicznie udostępniono je 11 lutego 2017 roku. Najnowszą aktualizację, o oznaczeniu 1.3.0, opublikowano 17 sierpnia.

TensorFlow może działać z wykorzystaniem wielu procesorów i kart graficznych jednocześnie (z opcjonalnym wykorzystaniem CUDA w ramach obliczeń ogólnego przeznaczenia dla układów GPU). Wyniki dostarcza w postaci wykresów przepływów danych. W czerwcu 2016 roku na serwerach GitHub (platforma dla twórców oprogramowania) znajdowało się aż półtora tysiąca wspomnień o TensorFlow, a tylko pięć z nich pochodziło bezpośrednio od Google.

Dzięki temu możemy sobie wyobrazić, jak wielkim zainteresowaniem cieszy się uczenie maszynowe. W maju 2017 roku Google ogłosiło wcielenie Tensor Processing Units do programu Google Compute Engine. Jednostki TPU drugiej generacji zapewniają wydajność do 180 teraflopsów, a połączone w klaster składający się z 64 jednostek TPU, mogą zapewnić nawet 11,5 petaflopsa. Żeby było łatwiej to zrozumieć, wyjaśnię pokrótce, czym w istocie są te flopy.

Teraflopsy, petaflopsy – o czym Ty mówisz?

Flop to oznaczenie liczby operacji zmiennoprzecinkowych na sekundę, a także podstawowa jednostka mocy obliczeniowej dowolnego komputera (w tym konsoli), zapisywana w notacji naukowej jako „razy 10 do potęgi”. Żeby łatwiej było zrozumieć podstawy ich wyliczenia, posłużmy się krótkim wzorem na przykładzie karty Nvidia GeForce GTX 1060:

1280 jednostek obliczeniowych × 1,7 GHz (taktowanie rdzenia) × 2 polecenia = 4 352 000 megaflopsów, czyli ~4,35 teraflopsa.

Dwa polecenia określają dwa różne typy poleceń równolegle wydawane w każdym cyklu (coś w stylu instrukcji postępowania dla GPU). Ten wzór można zastosować do każdego urządzenia dostępnego na rynku. Niestety, oznaczenie flop jest mocno orientacyjne. Według powszechnie stosowanego wzoru referencyjna karta graficzna Radeon RX 580 osiąga wydajność 5,8 teraflopa:

2304 jednostki obliczeniowe × 1257 MHz (taktowanie rdzenia) × 2 polecenia = 5 792 256 megaflopsów, czyli ~5,8 teraflopsa.

Jak wskazują jednak nasze testy, GTX 1060 w wielu różnych grach okazuje się tak samo szybki jak Radeon RX 580, a czasem nawet szybszy, mimo teoretycznej różnicy wydajności rzędu 1,4 teraflopa (to więcej, niż osiąga Xbox One).

Jak widać, ostatecznie wszystko zależy od umiejętności wykorzystania sprzętu i przygotowanego oprogramowania (na przykład sterowników). W podsumowaniu testu wskazaliśmy, że RX 580 ma niewielką przewagę nad GTX-em 1060, ale zdecydowanie nie tak dużą, jak sugeruje teoretyczna wydajność. Karty AMD sprawdzają się jednak zdecydowanie lepiej na przykład podczas wydobywania kryptowalut, kiedy to wskazywana różnica w mocy obliczeniowej ma duże znaczenie.

Zagadnienie wydajności i zależności, które zachodzą pomiędzy różnymi kartami (w kontekście ich teoretycznej mocy obliczeniowej), chciałbym omówić w przyszłości. Pamiętajcie, że dwukrotne zwiększenie liczby teraflopów nigdy się nie przełoży na dwukrotnie większą liczbę klatek w grach, na co wpływ ma między innymi kontroler pamięci.

Google Compute Engine – co to jest?

To specjalna usługa platformy Google Cloud, zbudowana na fundamencie globalnej infrastruktury, uruchamiającej między innymi przeglądarkę Google, pocztę gmail i witrynę YouTube. Technika obsługiwana przez Google Compute Engine pozwala użytkownikom stawiać wirtualne maszyny na żądanie. Klienci platformy (zwykle twórcy oprogramowania) muszą uwierzytelnić dostęp za pomocą OAuth 2.0, a maszynę obsłużą dzięki wierszowi poleceń, konsoli programisty lub interfejsowi RESTful.

Google stworzyło klaster składający się z tysiąca chmur wyposażonych w jednostki TPU. Zapewniło w ten sposób środowisku badawczemu blisko 180 petaflopsów czystej mocy obliczeniowej, która bez żadnych dodatkowych opłat ma wspomóc rozwój technik uczenia maszynowego. To wielka rzecz dla wszystkich zainteresowanych, bo może się przyczynić do kolejnych przełomowych odkryć w nauce. Obecnie z rozwiązań Google korzystają między innymi tacy giganci, jak: Intel, Qualcomm, eBay, IBM, Uber, Snapchat.

Dlaczego Tesla V100 może mieć tak duże znaczenie?

Nvidia zachwala Teslę V100 jako najbardziej zaawansowany układ graficzny (pierwsze GPU wyposażone w rdzenie Tensor). Ma w tym trochę racji, bo nowość zauważalnie wspomaga rozwój uczenia maszynowego i jest doskonałym wyborem dla naukowców, programistów czy inżynierów. Dzięki zastosowaniu 640 rdzeni Tensor Tesla V100 potrafi osiągnąć w uczeniu maszynowym (w niektórych zastosowaniach) 20-krotnie wyższą wydajność od Tesli P100, która takich rdzeni nie ma. To pozwoli na znaczne przyspieszenie prac nad wieloma obliczeniami i badaniami, co z kolei przyniesie jeszcze szybszy postęp w przyszłości. Teoretycznie, bo wszystko zależy od tego, jak rozwiązania „zielonych” zostaną wykorzystane.

Tesla V100 w całej okazałości – tutaj ze złączem NVLink

Nvidia chwali się tym na swojej stronie internetowej, na której porównuje obydwa układy. Według zamieszczonych tam danych wykorzystanie platformy Nvidia DGX wyposażonej w osiem układów graficznych P100 zapewni teoretyczną wydajność 170 teraflopsów. Po zastosowaniu ośmiu kart V100 wydajność rośnie do niewyobrażalnych 960 teraflopsów. To wszystko przy wykorzystaniu złącza NVLink o przepustowości 300 GB/s (dla porównania: PCI-E 3.0 zapewnia „tylko” 32 GB/s).

Ile to kosztuje? Za platformę Nvidia DGX wyposażoną w osiem układów Tesla P100 trzeba zapłacić 129 000 dolarów. Taka sama, tyle że oparta na układach Tesla V100, kosztuje… 149 000 dolarów. Jednak skok wydajności jest tak gigantyczny, że różnica w cenie nie jest duża. To nie są wielkie kwoty dla dużych korporacji, a zysku w postaci zaoszczędzonego czasu nie da się przecież wycenić.

To co dalej?

To dopiero początek omawiania skomplikowanych zagadnień na łamach PCLab.pl. Pracuję nad kilkoma dalszymi artykułami, między innymi o głębokim uczeniu (o tym, na czym takie uczenie polega i dlaczego nie jest równoznaczne z uczeniem maszynowym) i sztucznej inteligencji, które pozwolą trochę lepiej zrozumieć temat. Jestem zafascynowany rozwojem techniki i tym, co może nadejść w niedalekiej przyszłości, szczególnie w naszych domowych komputerach. Czekam z niecierpliwością na Wasze komentarze i wracam do pisania!

Data utworzenia: 8 września 2017 17:00, aktualizacja: 9 września 2017 11:04

Źródło:

Maciej Zabłocki

Tematy: Google, NVIDIA, AMD, GeForce, GPU