Gdyby kogoś to ciekawiło, to Tesla M2090 jest zmodyfikowanym GTX 580, wyposażonym w 6GB pamięci - mającym 665 Gflops w DP (4x więcej niż zablokowana wersja konsumencka) i 1331 Gflops w pojedynczej precyzji.
hehe rura wam zmiękła co nie
tylko nvidia mogła zrobić sprzęt o takiej wydajności
Akurat 'szczytowa wydajność' byłaby wyższa na AMD - jednak ze względu na architekturę, ta szczytowa wydajność daleka jest od faktycznej i rzadko dorównywałoby to kartą Nvidii (inna sprawa, że w niektórych sytuacjach te karty Nvidii nie dorównują procką Intela czy IBM, ale takie sytuacje niezbyt często są obliczane na superkomputerach (ze względu na to, że równoległe przetwarzanie nie daje im za wiele i wydajność jest podobna jak na Desktopie))
zaplanowano wdrożenie do 18 000 procesorów graficznych Tesla opartych na architekturze nowej generacji, opatrzonej nazwą kodową „Kepler”
Niech nv dostanie jeszcze parę takich zamówień, a już widzę 'dostępność' keplera dla nas, graczy
Już też widzę miny zamawiających takie superkomputery jak dostaną kolejnego mejla od nv zaczynającego się na 'W związku z problemami z uzyskiem w 28nm...'
Poznają panowie naukowcy co to znaczy czekać na kartę grafiki
W prostych liniowych zadaniach jak kodowanie/łamanie haseł uzyskuje się bliską teoretycznej wydajności i AMD prowadzi - jednak w bardziej zaawansowanych obliczeniach z masą rozgałęzień AMD uzyskuje znacznie mniejszą wydajność (wielokrotnie mniejszą niż karty Nvidii).
jak zwykle dojdziemy do wniosku, ze wszystko sprowadza sie do optymalizacji kodu.
podobnie do powyzszego linka, ktory załączylem moge poszukac jeszcze paru. na przyklad lamanie algorytmow zabezpieczen naszej (i nie tylko - caly swiat ma prawie to samo) telefoni komorkowej 2, 3 i 4 generacji tez odbywa sie szybciej na kartach AMD. dobry dysko 2 TB na tablice teczowe, odbiornik z odpowiednim zakresem fal pokrywajacym zakresy kanalow, progs i wio...
jak pisalem wczesniej o kodzie. PhysX tak naprawde uzywa archaicznych instrukcji, ktore moga byc rownie dobrze realizowane przez procesor...
ja podalem konkretny link, przy konkretnych zastosowaniach, ktorych kazdy moze uzyc i zobaczyc roznice.
jesli bedzie mnie stac na zakup / lub dane mi bedzie skorzystanie z takich ubermaszyn i przekonac sie osobiscie chetnie zmienie zdanie
Gdyby kogoś to ciekawiło, to Tesla M2090 jest zmodyfikowanym GTX 580, wyposażonym w 6GB pamięci - mającym 665 Gflops w DP (4x więcej niż zablokowana wersja konsumencka) i 1331 Gflops w pojedynczej precyzji.
Mnie ciekawi czy da się taką wersję konsumencką odblokować
Gdyby kogoś to ciekawiło, to Tesla M2090 jest zmodyfikowanym GTX 580, wyposażonym w 6GB pamięci - mającym 665 Gflops w DP (4x więcej niż zablokowana wersja konsumencka) i 1331 Gflops w pojedynczej precyzji.
Mnie ciekawi czy da się taką wersję konsumencką odblokować
hehe rura wam zmiękła co nie
tylko nvidia mogła zrobić sprzęt o takiej wydajności
Akurat 'szczytowa wydajność' byłaby wyższa na AMD - jednak ze względu na architekturę, ta szczytowa wydajność daleka jest od faktycznej i rzadko dorównywałoby to kartą Nvidii (inna sprawa, że w niektórych sytuacjach te karty Nvidii nie dorównują procką Intela czy IBM, ale takie sytuacje niezbyt często są obliczane na superkomputerach (ze względu na to, że równoległe przetwarzanie nie daje im za wiele i wydajność jest podobna jak na Desktopie))
Akurat nie wiemy jak sytuacja będzie wyglądać po wprowadzeniu nowej genracji GPU w nowej architekturze.
jak zwykle dojdziemy do wniosku, ze wszystko sprowadza sie do optymalizacji kodu.
Tu nie chodzi o optymalizację tylko o dany problem i to czy pasuje architekturze. Algorytmy hashujące bardzo liniowo wszystko traktują, dlatego wydajność jest maksymalna na architekturach SIMD (jak GPU czy SSE). Dlatego Radeon 6970 (teoretycznie 2.7 TFLOPS) w hashowaniu jest szybszy on GeForce 580 (teoretycznie 1.6 TFLOPS), jednak mało który algorytm da się przedstawić liniowo bez żadnych instrukcji warunkowych czy pętli, bo wtedy zależnie od danych może być tak, że tylko jeden procek na SIMD będzie działać w AMD (w procki w Nvidii ze względu na DualWarp), a AMD ma gigantyczne SIMD i pesymistycznym wypadku (gdzie dane są niekorzystne dla SIMD) wydajność Radeon 6970 jest dzielona przez 64 (w starszych AMD przez 80 bo było w serii HD5k 80 procków na SIMD), a w wypadku Nvidii jest dzielona przez 16 (bo ma 32 rdzenie na SIMD, ale dzięki DualWarp działa 2, a nie jeden w pesymistycznym wypadku przez co wydajność jest taka, jakby SIMD miał 16 rdzeni w sobie). Nic tu optymalizacją nie zrobisz... optymalizacje za to mogłaby poprawić sama AMD, bo ich scheduler jest słaby i wydajność w wypadku kiedy trzeba coś rozrzucać po SIMD i program nie jest tak łatwy jak Hashowanie to karty AMD tracą jeszcze dużo na wydajności, przez słaby sprzętowy scheduler.
b0unc3r82pl @ 2011.10.11 17:05
jak pisalem wczesniej o kodzie. PhysX tak naprawde uzywa archaicznych instrukcji, ktore moga byc rownie dobrze realizowane przez procesor...
Wiele rzeczy z PhysX nie jesteś w stanie zrobić na procesorze x86 dostatecznie szybko (jak Fluidy), inne rzeczy są dla GPU wręcz niesłychanie trudne do zrobienia w dobrym czasie, a dla x86 to pestka (fizyka brył sztywnych do niedawna była w PhysX tylko na x86, a na GPU nie dostaje przyspieszenia mimo, że męczyli się, żeby jako tako działała na GPU przez lata).
Za to ładnie pokazuje jak ważna jest architektura GPU Bullet Physics w OpenCL - twórca Bullet jak i wszyscy piszący wersję OpenCL pracują dla AMD i optymalizują pod ich karty, ale mimo to, najwydajniejsze karty AMD w Bullet są kilkakrotnie wolniejsze niż GeForce 460 - po prostu tego typu obliczenia nie leżą arch AMD - nie bez powodu też AMD zmienia zupełnie arch nowych kart które ma zamiar wprowadzić na początku roku (będzie mniej teoretycznej mocy, ale więcej faktycznej w bardziej skomplikowanych zadaniach jak chociażby liczenie fizyki czy raytracing) - bardzo możliwe, że hashowanie na najwydajniejszych kartach w 28nm będzie mimo większej ilości tranzystorów słabsze niż na AMD obecnej generacji.
Amitoza @ 2011.10.11 18:06
Akurat nie wiemy jak sytuacja będzie wyglądać po wprowadzeniu nowej genracji GPU w nowej architekturze.
Tak - AMD ostro pracuje nad przygotowaniem nowej generacji do obliczeń i robi radykalne kroki, więc kto wie - będzie ostra walka, tym bardziej, że dla Nvidii dalej obliczenia są priorytetem.
jak zwykle dojdziemy do wniosku, ze wszystko sprowadza sie do optymalizacji kodu.
podobnie do powyzszego linka, ktory załączylem moge poszukac jeszcze paru. na przyklad lamanie algorytmow zabezpieczen naszej (i nie tylko - caly swiat ma prawie to samo) telefoni komorkowej 2, 3 i 4 generacji tez odbywa sie szybciej na kartach AMD. dobry dysko 2 TB na tablice teczowe, odbiornik z odpowiednim zakresem fal pokrywajacym zakresy kanalow, progs i wio...
jak pisalem wczesniej o kodzie. PhysX tak naprawde uzywa archaicznych instrukcji, ktore moga byc rownie dobrze realizowane przez procesor...
ja podalem konkretny link, przy konkretnych zastosowaniach, ktorych kazdy moze uzyc i zobaczyc roznice.
jesli bedzie mnie stac na zakup / lub dane mi bedzie skorzystanie z takich ubermaszyn i przekonac sie osobiscie chetnie zmienie zdanie
Tysiące programistów ma przedstawiać problemy obliczeniowe w taki sposób, by okazało się że GPU AMD w GPGPU są równie wydajne w każdej sytuacji? Wiesz jaka to praca? I wiesz że często to niemożliwe? I po co? Żeby zrobić dobrze AMD?
Amitoza @ 2011.10.11 18:06
skoti48 @ 2011.10.11 16:41
(...)
Akurat 'szczytowa wydajność' byłaby wyższa na AMD - jednak ze względu na architekturę, ta szczytowa wydajność daleka jest od faktycznej i rzadko dorównywałoby to kartą Nvidii (inna sprawa, że w niektórych sytuacjach te karty Nvidii nie dorównują procką Intela czy IBM, ale takie sytuacje niezbyt często są obliczane na superkomputerach (ze względu na to, że równoległe przetwarzanie nie daje im za wiele i wydajność jest podobna jak na Desktopie))
Akurat nie wiemy jak sytuacja będzie wyglądać po wprowadzeniu nowej genracji GPU w nowej architekturze.
Racja i myślę że w HD7000 AMD skupi się również na poprawieniu efektywności GPGPU.
XK6 był projektowany jako 50 Petaflop-ów, gdzie zjadło te 30 ? Kupili wersję OEM ? Najważniejsze jest to że XK6 jest tani jak barszcz (pod względem innych super komputerów).
tylko nvidia mogła zrobić sprzęt o takiej wydajności
tylko nvidia mogła zrobić sprzęt o takiej wydajności
Akurat 'szczytowa wydajność' byłaby wyższa na AMD - jednak ze względu na architekturę, ta szczytowa wydajność daleka jest od faktycznej i rzadko dorównywałoby to kartą Nvidii (inna sprawa, że w niektórych sytuacjach te karty Nvidii nie dorównują procką Intela czy IBM, ale takie sytuacje niezbyt często są obliczane na superkomputerach (ze względu na to, że równoległe przetwarzanie nie daje im za wiele i wydajność jest podobna jak na Desktopie))
idz do przedszkola i zacznij edukacje od nowa. na poczatek poczytaj...
http://www.tomshardware.com/reviews/wirele...ack,2981-8.html
jaka broszka takie dzieci rodzi...
Niech nv dostanie jeszcze parę takich zamówień, a już widzę 'dostępność' keplera dla nas, graczy
Już też widzę miny zamawiających takie superkomputery jak dostaną kolejnego mejla od nv zaczynającego się na 'W związku z problemami z uzyskiem w 28nm...'
Poznają panowie naukowcy co to znaczy czekać na kartę grafiki
Przecież już teraz dostajesz zblokowane karty.
idz do przedszkola i zacznij edukacje od nowa. na poczatek poczytaj...
http://www.tomshardware.com/reviews/wirele...ack,2981-8.html
jaka broszka takie dzieci rodzi...
W prostych liniowych zadaniach jak kodowanie/łamanie haseł uzyskuje się bliską teoretycznej wydajności i AMD prowadzi - jednak w bardziej zaawansowanych obliczeniach z masą rozgałęzień AMD uzyskuje znacznie mniejszą wydajność (wielokrotnie mniejszą niż karty Nvidii).
jak zwykle dojdziemy do wniosku, ze wszystko sprowadza sie do optymalizacji kodu.
podobnie do powyzszego linka, ktory załączylem moge poszukac jeszcze paru. na przyklad lamanie algorytmow zabezpieczen naszej (i nie tylko - caly swiat ma prawie to samo) telefoni komorkowej 2, 3 i 4 generacji tez odbywa sie szybciej na kartach AMD. dobry dysko 2 TB na tablice teczowe, odbiornik z odpowiednim zakresem fal pokrywajacym zakresy kanalow, progs i wio...
jak pisalem wczesniej o kodzie. PhysX tak naprawde uzywa archaicznych instrukcji, ktore moga byc rownie dobrze realizowane przez procesor...
ja podalem konkretny link, przy konkretnych zastosowaniach, ktorych kazdy moze uzyc i zobaczyc roznice.
jesli bedzie mnie stac na zakup / lub dane mi bedzie skorzystanie z takich ubermaszyn i przekonac sie osobiscie chetnie zmienie zdanie
-->
'Tytan' o wydajności 20 petaflopSów
W tej chwili to znaczy 20 peta FDD 3,5''
Nie, pewnie jest cięty laserowo chip
tylko nvidia mogła zrobić sprzęt o takiej wydajności
Akurat 'szczytowa wydajność' byłaby wyższa na AMD - jednak ze względu na architekturę, ta szczytowa wydajność daleka jest od faktycznej i rzadko dorównywałoby to kartą Nvidii (inna sprawa, że w niektórych sytuacjach te karty Nvidii nie dorównują procką Intela czy IBM, ale takie sytuacje niezbyt często są obliczane na superkomputerach (ze względu na to, że równoległe przetwarzanie nie daje im za wiele i wydajność jest podobna jak na Desktopie))
Akurat nie wiemy jak sytuacja będzie wyglądać po wprowadzeniu nowej genracji GPU w nowej architekturze.
Tu nie chodzi o optymalizację tylko o dany problem i to czy pasuje architekturze. Algorytmy hashujące bardzo liniowo wszystko traktują, dlatego wydajność jest maksymalna na architekturach SIMD (jak GPU czy SSE). Dlatego Radeon 6970 (teoretycznie 2.7 TFLOPS) w hashowaniu jest szybszy on GeForce 580 (teoretycznie 1.6 TFLOPS), jednak mało który algorytm da się przedstawić liniowo bez żadnych instrukcji warunkowych czy pętli, bo wtedy zależnie od danych może być tak, że tylko jeden procek na SIMD będzie działać w AMD (w procki w Nvidii ze względu na DualWarp), a AMD ma gigantyczne SIMD i pesymistycznym wypadku (gdzie dane są niekorzystne dla SIMD) wydajność Radeon 6970 jest dzielona przez 64 (w starszych AMD przez 80 bo było w serii HD5k 80 procków na SIMD), a w wypadku Nvidii jest dzielona przez 16 (bo ma 32 rdzenie na SIMD, ale dzięki DualWarp działa 2, a nie jeden w pesymistycznym wypadku przez co wydajność jest taka, jakby SIMD miał 16 rdzeni w sobie). Nic tu optymalizacją nie zrobisz... optymalizacje za to mogłaby poprawić sama AMD, bo ich scheduler jest słaby i wydajność w wypadku kiedy trzeba coś rozrzucać po SIMD i program nie jest tak łatwy jak Hashowanie to karty AMD tracą jeszcze dużo na wydajności, przez słaby sprzętowy scheduler.
Wiele rzeczy z PhysX nie jesteś w stanie zrobić na procesorze x86 dostatecznie szybko (jak Fluidy), inne rzeczy są dla GPU wręcz niesłychanie trudne do zrobienia w dobrym czasie, a dla x86 to pestka (fizyka brył sztywnych do niedawna była w PhysX tylko na x86, a na GPU nie dostaje przyspieszenia mimo, że męczyli się, żeby jako tako działała na GPU przez lata).
Za to ładnie pokazuje jak ważna jest architektura GPU Bullet Physics w OpenCL - twórca Bullet jak i wszyscy piszący wersję OpenCL pracują dla AMD i optymalizują pod ich karty, ale mimo to, najwydajniejsze karty AMD w Bullet są kilkakrotnie wolniejsze niż GeForce 460 - po prostu tego typu obliczenia nie leżą arch AMD - nie bez powodu też AMD zmienia zupełnie arch nowych kart które ma zamiar wprowadzić na początku roku (będzie mniej teoretycznej mocy, ale więcej faktycznej w bardziej skomplikowanych zadaniach jak chociażby liczenie fizyki czy raytracing) - bardzo możliwe, że hashowanie na najwydajniejszych kartach w 28nm będzie mimo większej ilości tranzystorów słabsze niż na AMD obecnej generacji.
Akurat nie wiemy jak sytuacja będzie wyglądać po wprowadzeniu nowej genracji GPU w nowej architekturze.
Tak - AMD ostro pracuje nad przygotowaniem nowej generacji do obliczeń i robi radykalne kroki, więc kto wie - będzie ostra walka, tym bardziej, że dla Nvidii dalej obliczenia są priorytetem.
jak zwykle dojdziemy do wniosku, ze wszystko sprowadza sie do optymalizacji kodu.
podobnie do powyzszego linka, ktory załączylem moge poszukac jeszcze paru. na przyklad lamanie algorytmow zabezpieczen naszej (i nie tylko - caly swiat ma prawie to samo) telefoni komorkowej 2, 3 i 4 generacji tez odbywa sie szybciej na kartach AMD. dobry dysko 2 TB na tablice teczowe, odbiornik z odpowiednim zakresem fal pokrywajacym zakresy kanalow, progs i wio...
jak pisalem wczesniej o kodzie. PhysX tak naprawde uzywa archaicznych instrukcji, ktore moga byc rownie dobrze realizowane przez procesor...
ja podalem konkretny link, przy konkretnych zastosowaniach, ktorych kazdy moze uzyc i zobaczyc roznice.
jesli bedzie mnie stac na zakup / lub dane mi bedzie skorzystanie z takich ubermaszyn i przekonac sie osobiscie chetnie zmienie zdanie
Tysiące programistów ma przedstawiać problemy obliczeniowe w taki sposób, by okazało się że GPU AMD w GPGPU są równie wydajne w każdej sytuacji? Wiesz jaka to praca? I wiesz że często to niemożliwe? I po co? Żeby zrobić dobrze AMD?
Akurat 'szczytowa wydajność' byłaby wyższa na AMD - jednak ze względu na architekturę, ta szczytowa wydajność daleka jest od faktycznej i rzadko dorównywałoby to kartą Nvidii (inna sprawa, że w niektórych sytuacjach te karty Nvidii nie dorównują procką Intela czy IBM, ale takie sytuacje niezbyt często są obliczane na superkomputerach (ze względu na to, że równoległe przetwarzanie nie daje im za wiele i wydajność jest podobna jak na Desktopie))
Akurat nie wiemy jak sytuacja będzie wyglądać po wprowadzeniu nowej genracji GPU w nowej architekturze.
Racja i myślę że w HD7000 AMD skupi się również na poprawieniu efektywności GPGPU.