W istocie, jak już napisałem wcześniej, przy pracy wyłącznie strumieniowej, wspomniane podsystemy nie są niezbędne. A skoki występują dość często!
Trochę w tym robię... skoki nie są właściwie warunkowe, a więc nie ma zbyt wielu nieprzewidzianych rozgałęzień kodu. Dajmy na to taką transformatę cosinusową stosowaną chociażby przy kompresji obrazu - czyste liniowe pętle, jeden skok warunkowy przy wyjściu z pętli... jeden na np. 2048 przebiegów pętli - do przeżycia . Swoją drogą wymarzone wręcz zastosowanie dla procesorów multicore.
P.S. Proszę poprawić przepływności interfejsów opisywanej w artykule karty - te 12 portów to 1 GigabitEth, sam (nieprogramowalny) 12-portowy switch 10GbE kosztowałby wielokrotność wspomnianych 435USD.
Wg. producenta jest to procesor specjalizowany (networking & digital video - czyli przewalanie ogromnych ilości danych przez jednostki obliczeniowe
Chyba jasno to przedstawiłem - producent chce sprzedać, więc eksponuje zastosowanie sprawdzone i pewne, czyli potężny procesor sieciowy, a na okrasę zastosowanie aktualne i "modne" - kompresję H.264.
CYTAT
(w pierwszym przypadku stało- w drugim zmienno-przecinkowe) w dodatku zawsze przewalanie kolejnych danych i kolejnych rozkazów z cache)
Przy pracy strumieniowej - rzeczywiście.
CYTAT
Podejrzewam, że w innych zastosowaniach byłaby to straszna marność. W przypadku networking czy digital video można zapomnieć o czymś takim jak przewidywanie skoków, podsystemy dbające o spójność cache itp. itd. ... gdyż zastosowania te pozwalają na równoległe wykonywanie/obrabianie fragmentu całości.
W istocie, jak już napisałem wcześniej, przy pracy wyłącznie strumieniowej, wspomniane podsystemy nie są niezbędne. A skoki występują dość często!
CYTAT
Odpalony na takim CPU system operacyjny chodziłby porównywalnie do i386 SX 20MHz.
Ja bym obstawiał, że raczej jak Transmeta Crusoe I generacji.
CYTAT
Nie mamy też żadnych informacji dot. długości potoku wykonawczego dla każdego rdzenia (w założonych zastosowaniach nie istnieje coś takiego jak wycofywanie rozkazów z kolejki w przypadku gdy następuje skok, więc można podejrzewać, że jest koszmarnie dłuuugiii).
Hmmm... najbardziej złożony VLIW w historii czyli pierwsze Itanium, miał tych faz siedem. W TILE podejrzewam cztery, co najwyżej pięć..
CYTAT
Stworzenie n rdzeniowego procesora do specjalizowanych zastosowań nie jest wielką filozofią (ATi, nVidia, Broadcom, Altera, Xilinx...), stworzenie tych wszystkich wyszukanych mechanizmów towarzyszacych współczesnym i nadchodzącym procesorom ogólnego przeznaczenia (intel, amd) to już (naj)wyższa szkoła jazdy.
To ja dodam od siebie tylko tyle, że jeden z chyba wciąż liczących się na procesorowym rynku graczy, IBM, już jakiś czas temu (na oko ze dwa lata) zrezygnował z tych wszystkich "wyszukanych mechanizmów" i obecnie stosowane w wielu bardzo różnych układach IBM jądro pracuje w trybie "In Order Execution".
CYTAT
Inna sprawa, że general purpose CPU wyposażone w taki silnik do przelicznia strumieniowego byłby fajną zabawką.
Do "pomocniczej" strumieniówki wolałbym zdecydowanie coś ze stajni ATI czy NVIDII.
A w ogóle, to poprosiłem ich o trochę informacji dodatkowych - może coś przyślą w przyszłym tygodniu, będzie można zweryfikować poglądy.
Fajny koprocesor dla którego można znaleźć więcej zastosowań niż tylko networking & digital video. Wspomaganie grafiki i fizyki? Czemu nie w połączeniu z uniwersalnością CPU? A tak swoją drogą to ciekawe co jest korzystniejsze: przewidywanie skoków czy po prostu obliczenie wszystkich możliwych wariantów na bardzo dużej ilości CPU ?
ta karta 10 Ethernet to jakaś fikikacja 10 Gb Eternet ~ 1000MB/s PCIe x4 daje wąłsnie gdzieś taką przepustowość to jakim cudem to ma 10 takich gniazdek ? Było by to rozsądne na zwykłym 1 GB ethernecie
No, widze że co niektórzy w 100% rozumieją do czego służy ta karta
Wg. producenta jest to procesor specjalizowany (networking & digital video - czyli przewalanie ogromnych ilości danych przez jednostki obliczeniowe (w pierwszym przypadku stało- w drugim zmienno-przecinkowe) w dodatku zawsze przewalanie kolejnych danych i kolejnych rozkazów z cache) podejrzewam, że w innych zastosowaniach byłaby to straszna marność. W przypadku networking czy digital video można zapomnieć o czymś takim jak przewidywanie skoków, podsystemy dbające o spójność cache itp. itd. ... gdyż zastosowania te pozwalają na równoległe wykonywanie/obrabianie fragmentu całości. Odpalony na takim CPU system operacyjny chodziłby porównywalnie do i386 SX 20MHz. Nie mamy też żadnych informacji dot. długości potoku wykonawczego dla każdego rdzenia (w założonych zastosowaniach nie istnieje coś takiego jak wycofywanie rozkazów z kolejki w przypadku gdy następuje skok, więc można podejrzewać, że jest koszmarnie dłuuugiii). Stworzenie n rdzeniowego procesora do specjalizowanych zastosowań nie jest wielką filozofią (ATi, nVidia, Broadcom, Altera, Xilinx...), stworzenie tych wszystkich wyszukanych mechanizmów towarzyszacych współczesnym i nadchodzącym procesorom ogólnego przeznaczenia (intel, amd) to już (naj)wyższa szkoła jazdy. Inna sprawa, że general purpose CPU wyposażone w taki silnik do przelicznia strumieniowego byłby fajną zabawką.
Qrde ale to ma moc obliczeniowa porownywalna z 8800. Jakby z tego zrobic procesor, a jzu nie mowi ze powinno sie calkiem latwo klastrowac, to mozna by bylo bardzo fajne maszynki wieloprocesorowe zrobic. a jakby weszli na rynek tanich superkomputerow i wsadzili dajmy na to 6 takich to masz 2 TFlopy wydajnosci i mozesz sobei zrobic uniwersytecki server do badan... no coz dobrze trzeba wymyslac nowe
Wg. producenta jest to procesor specjalizowany (networking & digital video - czyli przewalanie ogromnych ilości danych przez jednostki obliczeniowe (w pierwszym przypadku stało- w drugim zmienno-przecinkowe) w dodatku zawsze przewalanie kolejnych danych i kolejnych rozkazów z cache) podejrzewam, że w innych zastosowaniach byłaby to straszna marność. W przypadku networking czy digital video można zapomnieć o czymś takim jak przewidywanie skoków, podsystemy dbające o spójność cache itp. itd. ... gdyż zastosowania te pozwalają na równoległe wykonywanie/obrabianie fragmentu całości. Odpalony na takim CPU system operacyjny chodziłby porównywalnie do i386 SX 20MHz. Nie mamy też żadnych informacji dot. długości potoku wykonawczego dla każdego rdzenia (w założonych zastosowaniach nie istnieje coś takiego jak wycofywanie rozkazów z kolejki w przypadku gdy następuje skok, więc można podejrzewać, że jest koszmarnie dłuuugiii). Stworzenie n rdzeniowego procesora do specjalizowanych zastosowań nie jest wielką filozofią (ATi, nVidia, Broadcom, Altera, Xilinx...), stworzenie tych wszystkich wyszukanych mechanizmów towarzyszacych współczesnym i nadchodzącym procesorom ogólnego przeznaczenia (intel, amd) to już (naj)wyższa szkoła jazdy. Inna sprawa, że general purpose CPU wyposażone w taki silnik do przelicznia strumieniowego byłby fajną zabawką.
Qrde ale to ma moc obliczeniowa porownywalna z 8800. Jakby z tego zrobic procesor, a jzu nie mowi ze powinno sie calkiem latwo klastrowac, to mozna by bylo bardzo fajne maszynki wieloprocesorowe zrobic. a jakby weszli na rynek tanich superkomputerow i wsadzili dajmy na to 6 takich to masz 2 TFlopy wydajnosci i mozesz sobei zrobic uniwersytecki server do badan... no coz dobrze trzeba wymyslac nowe
a ten Polaris jakie mial ten 5 element - lacze do przyszlosci? Co to bylo?
Łącze do pamięci która ma się znaleźć nad elementami logicznymi, kiedy Intel dopracuje technologie pozwalające na budowanie chipów z większej ilości warstw.
ta karta 10 Ethernet to jakaś fikikacja 10 Gb Eternet ~ 1000MB/s PCIe x4 daje wąłsnie gdzieś taką przepustowość to jakim cudem to ma 10 takich gniazdek ? Było by to rozsądne na zwykłym 1 GB ethernecie
To nie jest tylko karta sieciowa - to łączy w sobie cechy programowalnego switcha/routera, tak więc tylko jakis percentyl danych przetwarzanych na karcie będzie wędrował do komputera w którym będzie osadzona. Dodatkowo na samej karcie można odpalić wiele aplikacji jak np. firewall. Faktem jest, że na karcie jest 12 portów GigabitEthernet (nie żadne 10GbE) i tylko jeden interfejs XAUI w standardzie CX4 dla 10GbE. To, że na karcie jest 12 portów 10GbE jest bzdurą, podobnie jak możliwość rozbudowy karty o kolejne 12 portów 10GbE. Panie rs polecam zajrzeć do specyfikacji technicznej owej karty i skorygować artykuł.
"Cztery niezależne interfejsy DDR2 800 dają mu przepływność do 12,8 GB/s" -chyba 25,6GB/s
Też to zauważyłem, przecież pojedyncza kość pamięć 64 bit ddr800MHz zapewnia 6,4GB/s, dlatego jest taki (PC2-6400) ciąg symboli. Czyli jak mamy 4 interfejsy DDR2 800 to będzie 4*6,4=25,6, tak jak to już kolega zauważył
Hmm... a skąd wiesz że nie zrobiła ? skoro na GF8800 można odpalić Folding@ Home (poprawcie mnie jeśli sie myle z nazwą i wogule) to znaczy zę w srodku znajdują się wpełni programowalne jednosk (małe CPU). Wydaje mi się że karty graficzne zmieżają ku pełnej programowalności teraz producęci będą tylko podnosić ich wydajność. A Tiele nie stanie się procesorem graficznym ze względu na patęty.
No shadery z założenia są programowalne, a z shader model 4 to już w ogóle mało ograniczeń, ale ciągle mamy do czynienia z magistralami danych, a nie z siecią łączącą procesory, jak w Polarisie albo TILE64.
Wiesz, ja nie próbuje znajdować zastosowania dla czegoś, o czym nie mam zielonego pojęcia, a nawet jak bym dostał szczegułową specyfikacje tego to i tak moja wiedza nie pozwoliła by mi stwierdzić, gdzie taki procesor miałby zastosowanie... Ale co niektórzy na forum widze, że już wiedzą że tu sie podbije taktowanie, tu się zrobi to i tamto i wyjdzie nam GPU Pytanie mam więc jedno - czemu jeszcze tego nie zrobiła nVidia/AMD?
Hmm... a skąd wiesz że nie zrobiła ? skoro na GF8800 można odpalić Folding@ Home (poprawcie mnie jeśli sie myle z nazwą i wogule) to znaczy zę w srodku znajdują się wpełni programowalne jednosk (małe CPU). Wydaje mi się że karty graficzne zmieżają ku pełnej programowalności teraz producęci będą tylko podnosić ich wydajność. A Tiele nie stanie się procesorem graficznym ze względu na patęty.
fanie by byłoby mieć laptopa z takim "procem" (ten pobór mocy ) Linux na tym musi wymiatać ... a do tego nawet jak by dla niektórych bibliotek i aplikacji (zamkniętych dla których nie ma źródeł do kompilacji) włączało się emulację środowiska x86_32 albo nawet x86_64 to pewnie niezła byłaby wydajność
pytanie takie: obsługuje on instrukcje x86 ? jesli tak to dla tej firmy wystarczy wrzucic jakis RHT (reverse hyper-threading) ciut podnieść zegar i mozna zrobic genialna platwormę dla domowego usera
Brzmi pięknie, ale to wątpliwe ze względu na jego specyficzną konstrukcję.
Ale co niektórzy na forum widze, że już wiedzą że tu sie podbije taktowanie, tu się zrobi to i tamto i wyjdzie nam GPU Pytanie mam więc jedno - czemu jeszcze tego nie zrobiła nVidia/AMD?
To tylko taka wizja. Nie wiem czy zastosowane jednostki obliczeniowe nadają się do liczenia shaderów - ale jeżeli nie, to da się je zastąpić innymi. nVidia i AMD mają po prostu swoje własne pomysły i duże doświadczenie w wykorzystaniu szyn. Poza tym... nie masz pojęcia, jak będzie wyglądał na przykład r800 albo g100 - mogą to być shadery i ROPy połączone w sieć.
Trochę w tym robię... skoki nie są właściwie warunkowe, a więc nie ma zbyt wielu nieprzewidzianych rozgałęzień kodu. Dajmy na to taką transformatę cosinusową stosowaną chociażby przy kompresji obrazu - czyste liniowe pętle, jeden skok warunkowy przy wyjściu z pętli... jeden na np. 2048 przebiegów pętli - do przeżycia
P.S.
Proszę poprawić przepływności interfejsów opisywanej w artykule karty - te 12 portów to 1 GigabitEth, sam (nieprogramowalny) 12-portowy switch 10GbE kosztowałby wielokrotność wspomnianych 435USD.
Chyba jasno to przedstawiłem - producent chce sprzedać, więc eksponuje zastosowanie sprawdzone i pewne, czyli potężny procesor sieciowy, a na okrasę zastosowanie aktualne i "modne" - kompresję H.264.
Przy pracy strumieniowej - rzeczywiście.
W istocie, jak już napisałem wcześniej, przy pracy wyłącznie strumieniowej, wspomniane podsystemy nie są niezbędne. A skoki występują dość często!
Hmmm... najbardziej złożony VLIW w historii czyli pierwsze Itanium, miał tych faz siedem. W TILE podejrzewam cztery, co najwyżej pięć..
To ja dodam od siebie tylko tyle, że jeden z chyba wciąż liczących się na procesorowym rynku graczy, IBM, już jakiś czas temu (na oko ze dwa lata) zrezygnował z tych wszystkich "wyszukanych mechanizmów" i obecnie stosowane w wielu bardzo różnych układach IBM jądro pracuje w trybie "In Order Execution".
Do "pomocniczej" strumieniówki wolałbym zdecydowanie coś ze stajni ATI czy NVIDII.
A w ogóle, to poprosiłem ich o trochę informacji dodatkowych - może coś przyślą w przyszłym tygodniu, będzie można zweryfikować poglądy.
A tak swoją drogą to ciekawe co jest korzystniejsze: przewidywanie skoków czy po prostu obliczenie wszystkich możliwych wariantów na bardzo dużej ilości CPU
10 Gb Eternet ~ 1000MB/s PCIe x4 daje wąłsnie gdzieś taką przepustowość to jakim cudem to ma 10 takich gniazdek ?
Było by to rozsądne na zwykłym 1 GB ethernecie
No, widze że co niektórzy w 100% rozumieją do czego służy ta karta
To tak samo jak ja skończmy więc wreszcie tą żałosną teoretyzacje..
Inna sprawa, że general purpose CPU wyposażone w taki silnik do przelicznia strumieniowego byłby fajną zabawką.
Widze że kolega uderzył w sedno sprawy
dobrze trzeba wymyslac nowe
Wg. producenta jest to procesor specjalizowany (networking & digital video - czyli przewalanie ogromnych ilości danych przez jednostki obliczeniowe (w pierwszym przypadku stało- w drugim zmienno-przecinkowe) w dodatku zawsze przewalanie kolejnych danych i kolejnych rozkazów z cache) podejrzewam, że w innych zastosowaniach byłaby to straszna marność. W przypadku networking czy digital video można zapomnieć o czymś takim jak przewidywanie skoków, podsystemy dbające o spójność cache itp. itd. ... gdyż zastosowania te pozwalają na równoległe wykonywanie/obrabianie fragmentu całości. Odpalony na takim CPU system operacyjny chodziłby porównywalnie do i386 SX 20MHz. Nie mamy też żadnych informacji dot. długości potoku wykonawczego dla każdego rdzenia (w założonych zastosowaniach nie istnieje coś takiego jak wycofywanie rozkazów z kolejki w przypadku gdy następuje skok, więc można podejrzewać, że jest koszmarnie dłuuugiii). Stworzenie n rdzeniowego procesora do specjalizowanych zastosowań nie jest wielką filozofią (ATi, nVidia, Broadcom, Altera, Xilinx...), stworzenie tych wszystkich wyszukanych mechanizmów towarzyszacych współczesnym i nadchodzącym procesorom ogólnego przeznaczenia (intel, amd) to już (naj)wyższa szkoła jazdy.
Inna sprawa, że general purpose CPU wyposażone w taki silnik do przelicznia strumieniowego byłby fajną zabawką.
dobrze trzeba wymyslac nowe
Łącze do pamięci która ma się znaleźć nad elementami logicznymi, kiedy Intel dopracuje technologie pozwalające na budowanie chipów z większej ilości warstw.
Nie pisz takich komentarzy, serio, psujesz sobie opinię.
10 Gb Eternet ~ 1000MB/s PCIe x4 daje wąłsnie gdzieś taką przepustowość to jakim cudem to ma 10 takich gniazdek ?
Było by to rozsądne na zwykłym 1 GB ethernecie
To nie jest tylko karta sieciowa - to łączy w sobie cechy programowalnego switcha/routera, tak więc tylko jakis percentyl danych przetwarzanych na karcie będzie wędrował do komputera w którym będzie osadzona. Dodatkowo na samej karcie można odpalić wiele aplikacji jak np. firewall. Faktem jest, że na karcie jest 12 portów GigabitEthernet (nie żadne 10GbE) i tylko jeden interfejs XAUI w standardzie CX4 dla 10GbE. To, że na karcie jest 12 portów 10GbE jest bzdurą, podobnie jak możliwość rozbudowy karty o kolejne 12 portów 10GbE. Panie rs polecam zajrzeć do specyfikacji technicznej owej karty i skorygować artykuł.
-chyba 25,6GB/s
Też to zauważyłem, przecież pojedyncza kość pamięć 64 bit ddr800MHz zapewnia 6,4GB/s, dlatego jest taki (PC2-6400) ciąg symboli. Czyli jak mamy 4 interfejsy DDR2 800 to będzie 4*6,4=25,6, tak jak to już kolega zauważył
No shadery z założenia są programowalne, a z shader model 4 to już w ogóle mało ograniczeń, ale ciągle mamy do czynienia z magistralami danych, a nie z siecią łączącą procesory, jak w Polarisie albo TILE64.
Hmm... a skąd wiesz że nie zrobiła ? skoro na GF8800 można odpalić Folding@ Home (poprawcie mnie jeśli sie myle z nazwą i wogule) to znaczy zę w srodku znajdują się wpełni programowalne jednosk (małe CPU). Wydaje mi się że karty graficzne zmieżają ku pełnej programowalności teraz producęci będą tylko podnosić ich wydajność. A Tiele nie stanie się procesorem graficznym ze względu na patęty.
Pełna treść publikacji
fanie by byłoby mieć laptopa z takim "procem" (ten pobór mocy
Dokładnie. Cieszę się, że dzięki jednego z nas powstał b. ciekawy artykuł
Brzmi pięknie, ale to wątpliwe ze względu na jego specyficzną konstrukcję.
To tylko taka wizja. Nie wiem czy zastosowane jednostki obliczeniowe nadają się do liczenia shaderów - ale jeżeli nie, to da się je zastąpić innymi. nVidia i AMD mają po prostu swoje własne pomysły i duże doświadczenie w wykorzystaniu szyn. Poza tym... nie masz pojęcia, jak będzie wyglądał na przykład r800 albo g100 - mogą to być shadery i ROPy połączone w sieć.
-chyba 25,6GB/s
Wielkie dzięki dla całej redakcji.
Dzięki dla Ciebie - gdybyś nie zasygnalizował, całkiem bym sprawę przeoczył. A szkoda byłoby! Rób tak dalej, proszę!
Najśmieszniejszy jest twój reszta to odkrywcze wzije