artykuły

TILE64 - 64 procesory za 435 dolarów

58
6 września 2007, 12:43 Ryszard Sobkowski

Przeznaczenie, czyli „Dlaczego Ethernet?”

Patrząc na schemat blokowy układu TILE64, a ściślej biorąc zestaw interfejsów, trudno się oprzeć wrażeniu, że ten procesor przeznaczony jest przede wszystkim do pracy jako sieciowy moloch. Dwa czteroliniowe interfejsy Ethernet 10 Gb/s obsługiwane przez PCI Express, dwa porty 10 Gb/s XAUI MAC/PHY i na dodatek dwa porty gigabitowe. Na tym tle nikną zupełnie inne z interfejsów układu, przede wszystkim dwa porty Flexible I/O interface – programowalnego interfejsu, który może pełnić rolę np interfejsu dyskowego.

Dlaczego taka silna orientacja na Ethernet? Odpowiedź leży przede wszystkim w ekonomii, a właściwie w ocenie ryzyka – początkująca na rynku Tilera Corporation musiała na swój rynkowy debiut przygotować produkt, dla którego istnieje luka na rynku, a znaleziono ją właśnie w klasie procesorów sieciowych o bardzo dużej wydajności. W ten sposób wejście na rynek ma być dla firmy nie tylko efektowne pod względem technicznej klasy produktu, ale także bezpieczne, jeśli chodzi o potencjalną jego sprzedaż. W rezultacie, jako pierwsze urządzenie użytkowe z multiprocesorem TILE64, zaprezentowano kartę TILExpress-64.

Karta, jak karta, choć szokuje nieco liczbą gniazd RJ-45, szczególnie jeśli zdamy sobie sprawę z tego, że są to gniazda 10-gigabitowe. Ale nie koniec na tym – rzućmy okiem na jej schemat blokowy.

Port XAUI CX4 daje możliwość rozbudowy o kolejne 12 portów 10-gigabitowych! Nie zapomniano również o rozbudowie pamięci RAM, którą można przeprowadzić przy użyciu konwencjonalnych modułów SO-DIMM. Możliwości dalszej rozbudowy zapewnia dodatkowe złącze. Moloch sieciowy w całej okazałości!

A jednak sprzęt sieciowy to nie jedyne zastosowanie TILE64 – już obecnie przewiduje się wykorzystanie tego układu do multimediów. Jego wydajność pozwala na kodowanie wideo HD (kodek H.264) w czasie rzeczywistym – przy 720p @ 30 fps możliwe jest nawet równoległe kodowanie dwóch strumieni. Jest to jak najbardziej możliwe przy użyciu karty TILExpress-64, jednak można spodziewać się, że powstaną niedługo mutacje układu TILE z innym zestawem interfejsów. Firma zapowiedziała już układy zawierające 36 i 120 CPU, nie podając dalszych szczegółów technicznych.

W sumie – z punktu widzenia dzisiejszego, przeciętnego użytkownika PC, TILE64 może wydawać się niewart zainteresowania. Pamiętajmy jednak, że według prognoz (nie tylko Intela), multirdzeniowe procesory są przyszłością również i dla „następców PC”. Gdy prognozy się sprawdzą, będziemy mogli powiedzieć, że mieliśmy przyjemność poznać ich przodka... A na dziś liczy się to, że zawierający 64 CPU układ istnieje, działa i jest dostępny na rynku za cenę 435 dolarów USA (cena fabryczna).

Strona:
ext2007.09.09, 12:39
CYTAT(rs @ 8 września 2007, 21:25) <{POST_SNAPBACK}>
W istocie, jak już napisałem wcześniej, przy pracy wyłącznie strumieniowej, wspomniane podsystemy nie są niezbędne. A skoki występują dość często!


Trochę w tym robię... skoki nie są właściwie warunkowe, a więc nie ma zbyt wielu nieprzewidzianych rozgałęzień kodu. Dajmy na to taką transformatę cosinusową stosowaną chociażby przy kompresji obrazu - czyste liniowe pętle, jeden skok warunkowy przy wyjściu z pętli... jeden na np. 2048 przebiegów pętli - do przeżycia smilies/wink.gif. Swoją drogą wymarzone wręcz zastosowanie dla procesorów multicore.

P.S.
Proszę poprawić przepływności interfejsów opisywanej w artykule karty - te 12 portów to 1 GigabitEth, sam (nieprogramowalny) 12-portowy switch 10GbE kosztowałby wielokrotność wspomnianych 435USD.
*Konto usunięte*2007.09.08, 21:25
CYTAT(ext @ 8 września 2007, 17:42) <{POST_SNAPBACK}>
Wg. producenta jest to procesor specjalizowany (networking & digital video - czyli przewalanie ogromnych ilości danych przez jednostki obliczeniowe

Chyba jasno to przedstawiłem - producent chce sprzedać, więc eksponuje zastosowanie sprawdzone i pewne, czyli potężny procesor sieciowy, a na okrasę zastosowanie aktualne i "modne" - kompresję H.264.
CYTAT
(w pierwszym przypadku stało- w drugim zmienno-przecinkowe) w dodatku zawsze przewalanie kolejnych danych i kolejnych rozkazów z cache)

Przy pracy strumieniowej - rzeczywiście.
CYTAT
Podejrzewam, że w innych zastosowaniach byłaby to straszna marność. W przypadku networking czy digital video można zapomnieć o czymś takim jak przewidywanie skoków, podsystemy dbające o spójność cache itp. itd. ... gdyż zastosowania te pozwalają na równoległe wykonywanie/obrabianie fragmentu całości.

W istocie, jak już napisałem wcześniej, przy pracy wyłącznie strumieniowej, wspomniane podsystemy nie są niezbędne. A skoki występują dość często!

CYTAT
Odpalony na takim CPU system operacyjny chodziłby porównywalnie do i386 SX 20MHz.
Ja bym obstawiał, że raczej jak Transmeta Crusoe I generacji.

CYTAT
Nie mamy też żadnych informacji dot. długości potoku wykonawczego dla każdego rdzenia (w założonych zastosowaniach nie istnieje coś takiego jak wycofywanie rozkazów z kolejki w przypadku gdy następuje skok, więc można podejrzewać, że jest koszmarnie dłuuugiii).

Hmmm... najbardziej złożony VLIW w historii czyli pierwsze Itanium, miał tych faz siedem. W TILE podejrzewam cztery, co najwyżej pięć..
CYTAT
Stworzenie n rdzeniowego procesora do specjalizowanych zastosowań nie jest wielką filozofią (ATi, nVidia, Broadcom, Altera, Xilinx...), stworzenie tych wszystkich wyszukanych mechanizmów towarzyszacych współczesnym i nadchodzącym procesorom ogólnego przeznaczenia (intel, amd) to już (naj)wyższa szkoła jazdy.

To ja dodam od siebie tylko tyle, że jeden z chyba wciąż liczących się na procesorowym rynku graczy, IBM, już jakiś czas temu (na oko ze dwa lata) zrezygnował z tych wszystkich "wyszukanych mechanizmów" i obecnie stosowane w wielu bardzo różnych układach IBM jądro pracuje w trybie "In Order Execution".

CYTAT
Inna sprawa, że general purpose CPU wyposażone w taki silnik do przelicznia strumieniowego byłby fajną zabawką.


Do "pomocniczej" strumieniówki wolałbym zdecydowanie coś ze stajni ATI czy NVIDII.

A w ogóle, to poprosiłem ich o trochę informacji dodatkowych - może coś przyślą w przyszłym tygodniu, będzie można zweryfikować poglądy.
anemusZobacz profil
Poziom ostrzeżenia: 0%
anemus2007.09.08, 20:50
Fajny koprocesor dla którego można znaleźć więcej zastosowań niż tylko networking & digital video. Wspomaganie grafiki i fizyki? Czemu nie w połączeniu z uniwersalnością CPU?
A tak swoją drogą to ciekawe co jest korzystniejsze: przewidywanie skoków czy po prostu obliczenie wszystkich możliwych wariantów na bardzo dużej ilości CPU smilies/wink.gif ?
DziubekR1Zobacz profil
Poziom ostrzeżenia: 0%
DziubekR12007.09.08, 20:07
Nareszcie sie doczekalem artykulu w starym, dobrym stylu.
xxxqqqcccZobacz profil
Poziom ostrzeżenia: 0%
xxxqqqccc2007.09.08, 19:12
CYTAT(max-bit @ 6 września 2007, 21:38) <{POST_SNAPBACK}>
ta karta 10 Ethernet to jakaś fikikacja
10 Gb Eternet ~ 1000MB/s PCIe x4 daje wąłsnie gdzieś taką przepustowość to jakim cudem to ma 10 takich gniazdek ?
Było by to rozsądne na zwykłym 1 GB ethernecie

No, widze że co niektórzy w 100% rozumieją do czego służy ta karta smilies/lol2.gif

CYTAT(Pan Adaś @ 7 września 2007, 09:36) <{POST_SNAPBACK}>
"Nie wiem czy zastosowane jednostki obliczeniowe nadają się do liczenia shaderów"

To tak samo jak ja skończmy więc wreszcie tą żałosną teoretyzacje..

CYTAT(ext @ 8 września 2007, 16:42) <{POST_SNAPBACK}>
Wg. producenta jest to procesor specjalizowany (networking & digital video - czyli przewalanie ogromnych ilości danych przez jednostki obliczeniowe (w pierwszym przypadku stało- w drugim zmienno-przecinkowe) w dodatku zawsze przewalanie kolejnych danych i kolejnych rozkazów z cache) podejrzewam, że w innych zastosowaniach byłaby to straszna marność. W przypadku networking czy digital video można zapomnieć o czymś takim jak przewidywanie skoków, podsystemy dbające o spójność cache itp. itd. ... gdyż zastosowania te pozwalają na równoległe wykonywanie/obrabianie fragmentu całości. Odpalony na takim CPU system operacyjny chodziłby porównywalnie do i386 SX 20MHz. Nie mamy też żadnych informacji dot. długości potoku wykonawczego dla każdego rdzenia (w założonych zastosowaniach nie istnieje coś takiego jak wycofywanie rozkazów z kolejki w przypadku gdy następuje skok, więc można podejrzewać, że jest koszmarnie dłuuugiii). Stworzenie n rdzeniowego procesora do specjalizowanych zastosowań nie jest wielką filozofią (ATi, nVidia, Broadcom, Altera, Xilinx...), stworzenie tych wszystkich wyszukanych mechanizmów towarzyszacych współczesnym i nadchodzącym procesorom ogólnego przeznaczenia (intel, amd) to już (naj)wyższa szkoła jazdy.
Inna sprawa, że general purpose CPU wyposażone w taki silnik do przelicznia strumieniowego byłby fajną zabawką.

Widze że kolega uderzył w sedno sprawy smilies/thumbup.gif smilies/thumbup.gif smilies/thumbup.gif
ext2007.09.08, 17:42
CYTAT(Lupierz @ 8 września 2007, 10:00) <{POST_SNAPBACK}>
Qrde ale to ma moc obliczeniowa porownywalna z 8800. Jakby z tego zrobic procesor, a jzu nie mowi ze powinno sie calkiem latwo klastrowac, to mozna by bylo bardzo fajne maszynki wieloprocesorowe zrobic. a jakby weszli na rynek tanich superkomputerow i wsadzili dajmy na to 6 takich to masz 2 TFlopy wydajnosci i mozesz sobei zrobic uniwersytecki server do badan... no coz
dobrze trzeba wymyslac nowe smilies/bigsmile.gif


Wg. producenta jest to procesor specjalizowany (networking & digital video - czyli przewalanie ogromnych ilości danych przez jednostki obliczeniowe (w pierwszym przypadku stało- w drugim zmienno-przecinkowe) w dodatku zawsze przewalanie kolejnych danych i kolejnych rozkazów z cache) podejrzewam, że w innych zastosowaniach byłaby to straszna marność. W przypadku networking czy digital video można zapomnieć o czymś takim jak przewidywanie skoków, podsystemy dbające o spójność cache itp. itd. ... gdyż zastosowania te pozwalają na równoległe wykonywanie/obrabianie fragmentu całości. Odpalony na takim CPU system operacyjny chodziłby porównywalnie do i386 SX 20MHz. Nie mamy też żadnych informacji dot. długości potoku wykonawczego dla każdego rdzenia (w założonych zastosowaniach nie istnieje coś takiego jak wycofywanie rozkazów z kolejki w przypadku gdy następuje skok, więc można podejrzewać, że jest koszmarnie dłuuugiii). Stworzenie n rdzeniowego procesora do specjalizowanych zastosowań nie jest wielką filozofią (ATi, nVidia, Broadcom, Altera, Xilinx...), stworzenie tych wszystkich wyszukanych mechanizmów towarzyszacych współczesnym i nadchodzącym procesorom ogólnego przeznaczenia (intel, amd) to już (naj)wyższa szkoła jazdy.
Inna sprawa, że general purpose CPU wyposażone w taki silnik do przelicznia strumieniowego byłby fajną zabawką.
LupierzZobacz profil
Poziom ostrzeżenia: 0%
Lupierz2007.09.08, 10:00
Qrde ale to ma moc obliczeniowa porownywalna z 8800. Jakby z tego zrobic procesor, a jzu nie mowi ze powinno sie calkiem latwo klastrowac, to mozna by bylo bardzo fajne maszynki wieloprocesorowe zrobic. a jakby weszli na rynek tanich superkomputerow i wsadzili dajmy na to 6 takich to masz 2 TFlopy wydajnosci i mozesz sobei zrobic uniwersytecki server do badan... no coz
dobrze trzeba wymyslac nowe smilies/bigsmile.gif
Pan AdaśZobacz profil
Poziom ostrzeżenia: 0%
Pan Adaś2007.09.08, 09:43
CYTAT(mas1o @ 8 września 2007, 09:37) <{POST_SNAPBACK}>
a ten Polaris jakie mial ten 5 element - lacze do przyszlosci? Co to bylo?


Łącze do pamięci która ma się znaleźć nad elementami logicznymi, kiedy Intel dopracuje technologie pozwalające na budowanie chipów z większej ilości warstw.
mas1oZobacz profil
Poziom ostrzeżenia: 0%
mas1o2007.09.08, 09:37
a ten Polaris jakie mial ten 5 element - lacze do przyszlosci? Co to bylo?
DaRkstaR2111Zobacz profil
Poziom ostrzeżenia: 0%
DaRkstaR21112007.09.07, 22:34
CYTAT(max-bit @ 6 września 2007, 23:01) <{POST_SNAPBACK}>
a widziales ty kiedys serwerowa karte sieciowa prucz swego wypasionego gigabitowego realteka ?


smilies/poke.gif

Nie pisz takich komentarzy, serio, psujesz sobie opinię.
Funkcja komentowania została wyłączona. Do dyskusji zapraszamy na forum.
4