komentarze
Promilus1984Zobacz profil
Poziom ostrzeżenia: 0%
Promilus19842014.03.27, 18:03
Pokaż mi to ''niedławienie się PCI-e'' w przypadku rozwiązywania wieloetapowych problemów obliczeniowych, gdy cześć etapów mogłaby być efektywniej obliczana na CPU, a część na GPU. I to właśnie problem fizyki w grach oraz wszelkich symulacji.

BZDURA DO KWADRATU. Swego czasu popularne były tandemy pokroju GT200 + 9600GSO lub HD4870+9600GSO (96SP) właśnie do fizyki. Bardzo często takie konfiguracje były na płytach z chipsetami P35 (intel) które miały PCI-E 16x oraz PCI-E 4x (i w ten drugi był wpinany geforce do fizyki). Jak myślisz - czy użytkownicy X38 po wpięciu do slotu 16x tego małego dżiforsika mieli znacząco więcej FPS w fluidmarku? Przypominam, że sprzętowy PPU Agei siedział na ZWYKŁYM PCI !!!!
Na siłę szukasz zastosowań tego 'u kowalskiego' ale NIE MA.
A po co obciążać PCI-e? Już dawno powinno się stworzyć interfejs, który udostępnia koprocesorom szynę danych z pominięciem CPU, zaś samo CPU zarządzać miałoby jedynie szyną adresową

No to jest akurat stek bzdur bo nie potrafię sobie nawet wyobrazić jak to miałoby działać.
[
Obecnie efektywne metody wykorzystania GPU w roli koprocesora są bardzo biedne

Doprawdy? Dziwi mnie to niezmiernie w świetle tego jak Jen Hsun Huang chwalił się 10 pierwszymi pozycjami w green500 (i wieloma szczytowymi pozycjami w top500).
CortexM3Zobacz profil
Poziom ostrzeżenia: 0%
CortexM32014.03.27, 18:09
gregory003 @ 2014.03.27 15:56  Post: 735575
Zodiac @ 2014.03.27 11:42  Post: 735499
Cuda na kiju a głupiemu radość. To w skrócie działalność PR zielonych...

A g... prawda. Cuda na kiju, to te całe żałosne HSA od AMD i spółki. Da się to wykorzystać tylko, jeśli CPU i GPU są na jednym kawałku krzemu (SoC). Nie można z dobrodziejstw HSA skorzystać, gdy ma się do czynienia z CPU i dedykowanym GPU, a wtedy ma to najwięcej sensu. Bo po co łączyć słabowite CPU z jako takim GPU jak AMD w swoich APU?
NV Pascal pozwala wykorzystać sensownie moc najwydajniejszych kart graficznych, jako pełnoprawnych koprocesorów dla CPU. I nie trzeba integrować ich w jedno SoC.
Gdyby tylko Intel zechciał NVLink zintegorować w swoim Skylake.
Obecne PCI-Express jest biedne jeśli chodzi o wykorzystanie zewnętrznych (wobec CPU) układów obliczeniowych, jako specjalistycznych koprocesorów. PCI-E pozwala na zwykłą transmisję danych pomiędzy CPU a zewnętrznym układem. Nie ma ani bezpośredniego dostępu do pamięci operacyjnej (szyna danych), ani jakiegoś specjalizowanego kanału transmisji adresów (szyna adresowa) z CPU do koprocesora.

HSA to Cud który już stosowano w C64 i Amigach, bo tam układ graficzny i CPU funkcjonowały w jednolitej przestrzeni adresowej, wiec AMD tutaj niczego nowego nie wymyśla tylko chce wrócić, do starego sprawdzonego sposobu z czasów kiedy moc trzeba było krzesać przemyślanymi sztuczkami sprzętowymi i programowymi (takie odniesienie do MANTLE). No niestety skończyły się nam czasy galopujących MHz, z ery Pentium2/3/4 i trzeba szukać rozwiązań w innym kierunku.
Co do NVLink, też to żaden super wynalazek, jak by się przyjżeć schematowi blokowemu, to w sunie dodatkowe linie PCI-E, bo wątpię tutaj w interfejs równoległy, tylko że dedykowane specjalnie do komunikacji CPU<>GPU, czyli nic innego jak HSA w wersji NVidi.
mantleZobacz profil
Poziom ostrzeżenia: 0%
mantle2014.03.27, 18:20
Tez mam takie wrazenie ze nvlink jest potrzebny nvidii aby wspierac technologie HSA.

W przypadku AMD to APU oraz inne mobilne SoC.

W przypadku PC to potrzeba współdzielnonej pamięci , czyli wszystkie elementy spięte crossbarem.
skoti48Zobacz profil
Poziom ostrzeżenia: 0%
skoti482014.03.27, 18:36
O tym, ze prawdopodobnie takie rozwiazanie Nv pokaze mowie od pierwszych plotek o procesorze Denver (bo w przeciwienstwie do x86 ktory trzyma sie standardow w komputerach Arm nie ma sie zwiazanych rak). To jest duza wada GPU w profesjonalnych zastosowaniach obliczeniowych i badaniach naukowych. Prawdopodobnie zobaczymy ta technologie w procesorach IBM (partner Nv w OpenPOWER) i w procesorach Nvidia Denver (jesli dobrze pamietam opiera sie na podobnej zasadzie co transmeta i jeden procek obsługuje ARM i PPC) przeznaczonych na urzadzania od laptopow do superkomputerow (w serii Tegra raczej nie). Kompatybilnych procesorow AMD i Intel zapewne nie zobaczymy (a intel raczej nie da Nvidii licencji na x86). Ofc tu nie chodzi o to, zeby GPU czytalo sobie z pamieci GPU (bo pamiec CPU jest powolna i dlatego gra tego nie bedzie potrzebowac), a bardziej o to, aby CPU moglo czytac dane wypluwane przez kernele obliczeniowe na GPU.

Hashi @ 2014.03.27 06:39  Post: 735450
Jak pisałem, ze magistrala CPU <-> GPU to ograniczenie to mnie tu chciano zjeść, ze gierki im chodzą tak samo na x1 i x16. Trzeba być naprawdę oszołomem to potęgi entej by twierdzić, ze magistrala nie jest ograniczeniem. Oficjalna strona Nv:...

Bo pisałes bzdury. Oszolomem lub osoba ktora nie wie nic o grach trzeba byc zeby twierdzic ze magistrala jest ograniczeniem w GRACH, gdy ma mase testow PCI-E 3.0 vs 2.0 (2x mniejsza przepustowosc i wydajnosc bez zmian) czy PCI-E x16 vs PCI-E x4 (4x mniejsza przepustowosc, a wydajnosc gier bez zmian). Jedyna gra dla ktorej teoretycznie mogloby byc to ograniczenie to Rage, ale tej pci-e 2.0 wystarcza. Inna sprawa ofc sie ma w wypadku gier na gpu z bardzo ograniczona iloscia pamieci (jak PS3) i trzeba wszystko streamowac - tu przepustowosc nadrabia braki w sprzecie. Co do tekstu Nvidii to jest on jak najbardziej trafny i prawdziwy, ale Nvidia nie mowi tu o grach (wtedy mowilaby o tym na GDC poswieconej gra, a nie GTC poswieconej prawie wylacznie obliczenia na gpu). W wielu obliczeniach faktycznie ograniczeniem jest bardzo duzym przepustowosc, ale akurat nie w grach.

Hashi @ 2014.03.27 06:39  Post: 735450
Co do superkomputerów to nie wiem czy nie dochodzimy do punktu 'zero'. Odkryliśmy Bozon Higsa, czarną materię, potrafimy rozwiązać większość problemów naukowych, medycznych, pogodę tez w pewnym stopniu więc nie wiem czy to całe podnoszenie mocy nie idzie w gwizdek,

Z odkryciem Bozonu Higsa nie majaja wspolnego nic superkomputery, a LHC czyli najwiekszy akcelerator czastek (ktory juz do innych hipotetycznych czastek jest za slaby i w planach jest wiekszy akcelerator). Czarna materie nie odkrylismy (i mozliwe ze nigdy tego nie zrobimy, bo nie ma pewnosci co do jej istnienia), a puki co mozemy jedynie na podstawie obliczen z superkomputerow domniemywac ze cos czego nie rozumiemy (to czego nie jestesmy pewni ze istnieje/nie potrafimy czegos wyjasnic nazywamy ciemnym - ciemna materia, ciemny przepływ, ciemna energia...) i superkomputery dalej sa za slabe, aby robic szybkie postepy w badaniu kosmosu. Wiekszosci problemow nawet nie znamy, a jest niewyobrazalnie duzo teorii do przeliczenia ktorych nie da sie obliczyc na klasycznych komputerach prawdopodobnie nigdy (dlatego NASA kupiła komputer kwantowy, bo to jedyna szansa, aby cokolwiek obliczyc, bo wszystkie superkomputery swiata sa g warte przy wielu obliczeniach).

Hashi @ 2014.03.27 08:43  Post: 735465
Ostatnio ze skotim48 o tym rozmawialiśmy, ze 1 rdzeń w PS3 ma 25,6GB/s, a cały RAM ma 25,6GB/s

1 rdzen spu moze maksymalnie wykorzystac 25.6GB/S (wiecej moga rdzenie x86 obecnie), ale to ze wzgledu wlasnie na predkosc pamieci... jeden SPU jest generuje jednak w sekunde 51,2 GB/s (25.6 GFLOPS, z czego 2 operacje w jednym cyklu (na jednej liczbie wiec generuje 12.8 giga danych o rozmiarze 4 bajty (32 bity))). Na szczescie problemem jest wbrew temu co mowisz wydajnosc, a nie przepustowosc pamieci (bo wiekszosc danych generowanych przez procek nie jest zapisywana w ramie, a w pamieci podrecznej... dlatego tez zwiekszenie przepustowosci pamieci (zastosowanie szybszych kosci) nie daje wiele, w przeciwienstwie do szybszego procka).
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.27, 19:49
-3#45
@skoti48
Wiem, ze próbujesz mnie sprowokować do bana ale Ci się to nie uda. Ty mówisz o grach na PC. Słuchaj powiem Ci coś grałem chwilę w RAGE na PS3 i w moim skromnym zdaniu tekstury są gorsze niż np w KZ3 w Mawlr Graveyard:
http://www.youtube.com/watch?v=FksMhu5MZQE
Naprawdę Carmack w ogóle mi nie zaimponował swoją marną technologią. Skoro magistrala nie jest ograniczeniem to czemu PS4 nie ma PCIExpress x1 i GPU z kosmosu @500GB/s? Odpowiedz mi tylko na to pytanie. Ja rozumiem, ze chcesz zabłysnąć swoją wiedzą ale kolego mi nie imponujesz w ogóle. W ogóle.
Posłuchaj ja się opieram na wypowiedzi gościa, który swoją wiedzą by zdewastował ciebie, mnie i wszystkich tutaj razem wziętych. Zacytuje Ci to ponownie:
Remember that the latest PCI Express 4.0 is just 31.51 GB/sec, way less than 176 GB/sec. A game runs on CPU + GPU. Pål-Kristian Engstad
Mam dla ciebie zagadkę od niego. Jesteś dobry w ładowaniu łopatami ciężarówek i przewozenia z punktu A do B.
To move 1000 cars from A to B, what is more important: Speed (GHz), parking space (RAM) or traffic lanes (BW)?
https://twitter.com/mrengstad
Wiesz kiedyś twierdziłeś, ze ta mapa (ponizej) w której postać biega postać po symulowanym oceanie, z takim oświetleniem i mechaniką da się odpalić na 5W Tegrze co uważam za fantazje 21-wieku.
http://www.youtube.com/watch?v=99JltBwW7hI
Co do Bozonu to nie chce mi się z tobą kłócić kolego bo najpierw, zapamiętaj to sobie (czytałem książki Hawkinga i Einsteina) to takie rzeczy próbuje się udowodnić za pomocą symulacji. To czysta matematyka kwantowa.

Co do przepustowości rdzeni.. czyli uważasz za bezsens wstawienie eSRAM (który pomija tak naprawdę magistralę), gdzie na rdzeń przypada 4MB @12.8GB/s. Rozpisałem to jak dziecku. Ty chyba naprawdę nie rozumiesz mojego przekazu, co przykładem z ciezarówką tylko udowodniłeś. Jeśli zadanie jest wykonane na CPU szybciej i wysłane szybciej (a steaming bedzie zawsze w grach na PS4) do GPU to GPU szybciej policzy klatkę? Według ciebie nie według mnie tak bo gra hula na CPU+GPU.

Nie odpowiedziałeś mi na pewne pytanie kiedyś. Odnośnie mnożnika w CPU w PC, a mnożnika EIB.
Promilus1984Zobacz profil
Poziom ostrzeżenia: 0%
Promilus19842014.03.27, 19:57
Skoro magistrala nie jest ograniczeniem to czemu PS4 nie ma PCIExpress x1 i GPU z kosmosu @500GB/s?

Bo w PS4 IGP nie ma własnej pamięci tylko tą samą co procek? A w PC GPU ma 1-6GB pamięci 80-240GB/s a procek 4-16GB pamięci o prędkości 24-40GB/s? No właśnie.
[quite]A game runs on CPU + GPU[/quote]
Biorąc pod uwagę wydajność rdzeni w PS4 to te gry lecą głównie (jeśli chodzi o koszt obliczeniowy) na GPU. CPU tylko zarządzają tym co się dzieje, a do tego nie trzeba ani mega wydajności, ani mega przepustowości.
to takie rzeczy próbuje się udowodnić za pomocą symulacji.

I tu niezupełnie bo jednak mamy do czynienia z mechaniką kwantową. Nikt nie 'symulował' własciwości np. pozytronu, ktoś postulował że taka cząstka istnieje i ma takie właściwości jak elektron ale przeciwny ładunek elektryczny. I to najpierw zaobserwowano, a dopiero później doklepano 'formułki' :)
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.27, 20:08
-3#47
Promilus1984 @ 2014.03.27 19:57  Post: 735677
(...)

Bo w PS4 IGP nie ma własnej pamięci tylko tą samą co procek? A w PC GPU ma 1-6GB pamięci 80-240GB/s a procek 4-16GB pamięci o prędkości 24-40GB/s? No właśnie.
[quite]A game runs on CPU + GPU

Biorąc pod uwagę wydajność rdzeni w PS4 to te gry lecą głównie (jeśli chodzi o koszt obliczeniowy) na GPU. CPU tylko zarządzają tym co się dzieje, a do tego nie trzeba ani mega wydajności, ani mega przepustowości.
to takie rzeczy próbuje się udowodnić za pomocą symulacji.

I tu niezupełnie bo jednak mamy do czynienia z mechaniką kwantową. Nikt nie 'symulował' własciwości np. pozytronu, ktoś postulował że taka cząstka istnieje i ma takie właściwości jak elektron ale przeciwny ładunek elektryczny. I to najpierw zaobserwowano, a dopiero później doklepano 'formułki' :)

Z symulacjami się trochę zagalopowałem ale.. w przypadku np czarnych dziur przez lata matematycznie próbowano udowodnić, ze istnieją. Nawet niektórzy używali klastrów PS3 do symulacji tego 'zjawiska'. Naprawdę dla mnie bzdurą jest twierdzenie, ze magistrala nie wpływa na wydajność. Czego dowodem jest NvLink.
wake_upZobacz profil
Poziom ostrzeżenia: 0%
wake_up2014.03.27, 20:15
-3#48
Hashi @ 2014.03.27 19:49  Post: 735676
czytałem książki Hawkinga i Einsteina

Klap, klap, klap, brawo!
Mamy XXI wiek, także ich książki nadają się albo do podstawówki albo na stos. Na stos w myśl zasady że stare teorie i starzy naukowcy są największym hamulcem w rozwoju :P.

Edit: Matematycznie m-teoria jest piękna. Ciekawe czy dożyjemy czasów gdy uda się ją potwierdzić?
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.27, 20:31
-2#49
wake_up @ 2014.03.27 20:15  Post: 735684
Hashi @ 2014.03.27 19:49  Post: 735676
czytałem książki Hawkinga i Einsteina

Klap, klap, klap, brawo!
Mamy XXI wiek, także ich książki nadają się albo do podstawówki albo na stos. Na stos w myśl zasady że stare teorie i starzy naukowcy są największym hamulcem w rozwoju :P.

Edit: Matematycznie m-teoria jest piękna. Ciekawe czy dożyjemy czasów gdy uda się ją potwierdzić?

Im sie tylko wydaje, ze uda im się zrozumieć jak to wszystko działa.
wake_upZobacz profil
Poziom ostrzeżenia: 0%
wake_up2014.03.27, 20:50
-2#50
Iście naukowe podejście! :D
gregory003Zobacz profil
Poziom ostrzeżenia: 0%
gregory0032014.03.27, 20:55
-2#51
Promilus1984 @ 2014.03.27 18:03  Post: 735635
Pokaż mi to ''niedławienie się PCI-e'' w przypadku rozwiązywania wieloetapowych problemów obliczeniowych, gdy cześć etapów mogłaby być efektywniej obliczana na CPU, a część na GPU. I to właśnie problem fizyki w grach oraz wszelkich symulacji.

BZDURA DO KWADRATU. Swego czasu popularne były tandemy pokroju GT200 + 9600GSO lub HD4870+9600GSO (96SP) właśnie do fizyki. Bardzo często takie konfiguracje były na płytach z chipsetami P35 (intel) które miały PCI-E 16x oraz PCI-E 4x (i w ten drugi był wpinany geforce do fizyki). Jak myślisz - czy użytkownicy X38 po wpięciu do slotu 16x tego małego dżiforsika mieli znacząco więcej FPS w fluidmarku? Przypominam, że sprzętowy PPU Agei siedział na ZWYKŁYM PCI !!!!
Na siłę szukasz zastosowań tego 'u kowalskiego' ale NIE MA.

I ta fizyka na 9600 albo zajeżdzała kompletnie wydajność, albo była g... warta w porównaniu z dzisiejszymi ''sztuczkami''.
W czasach 9600 (2008 r.) przeciętne monitory miały rozdzielczość 1680 x 1050 a gry wyglądały tak:
http://www.gry-online.pl/S026.asp?ID=5663
http://www.gry-online.pl/S026.asp?ID=5478
http://www.gry-online.pl/S026.asp?ID=6683
http://www.gry-online.pl/S026.asp?ID=5588
http://www.gry-online.pl/S026.asp?ID=4098
A i tak, bez zaawansowanej fizyki, potrafiły zajeździć tego 9600GT.
W tych lepiej wyglądających grach, z lepszą fizyką (Crysis 1), nie wyciągał nawet 20 klatek w 1280x1024!
oto jaką potęgą, jeśli chodzi o fizyke w grach był 9600GT. A dziś gry są nie tylko bardziej wymagające pod względem fizyki, ale i grafiki. Więc to że kiedyś dało się dodać jakieś tam efekty fizyczne (najczęściej albo bardzo słabe, albo zajeżdżające kartę) do gry bez dodatkowego interfejsu czy nawet na pamięciach GDDR3, nie oznacza, że brak takiego interfejsu nie ma wpływu na tą fizykę.

A po co obciążać PCI-e? Już dawno powinno się stworzyć interfejs, który udostępnia koprocesorom szynę danych z pominięciem CPU, zaś samo CPU zarządzać miałoby jedynie szyną adresową

No to jest akurat stek bzdur bo nie potrafię sobie nawet wyobrazić jak to miałoby działać.

No to widocznie masz bardzo słabą wyobraźnię.
I niewielką wiedzę.

[
Obecnie efektywne metody wykorzystania GPU w roli koprocesora są bardzo biedne

Doprawdy? Dziwi mnie to niezmiernie w świetle tego jak Jen Hsun Huang chwalił się 10 pierwszymi pozycjami w green500 (i wieloma szczytowymi pozycjami w top500).

To że karty NV są pod względem obliczeń najlepsze przy obecnie stosowanych rozwiązaniach sprzętowych, to nie oznacza, że nie da się zaprojektować i wdrożyć lepszych. Ale do tego trzeba mieć wyobraźnię, a ty sobie ''nie wyobrażasz''.


skoti48 @ 2014.03.27 18:36  Post: 735653
O tym, ze prawdopodobnie takie rozwiazanie Nv pokaze mowie od pierwszych plotek o procesorze Denver (bo w przeciwienstwie do x86 ktory trzyma sie standardow w komputerach Arm nie ma sie zwiazanych rak). To jest duza wada GPU w profesjonalnych zastosowaniach obliczeniowych i badaniach naukowych. Prawdopodobnie zobaczymy ta technologie w procesorach IBM (partner Nv w OpenPOWER) i w procesorach Nvidia Denver (jesli dobrze pamietam opiera sie na podobnej zasadzie co transmeta i jeden procek obsługuje ARM i PPC) przeznaczonych na urzadzania od laptopow do superkomputerow (w serii Tegra raczej nie). Kompatybilnych procesorow AMD i Intel zapewne nie zobaczymy (a intel raczej nie da Nvidii licencji na x86). Ofc tu nie chodzi o to, zeby GPU czytalo sobie z pamieci GPU (bo pamiec CPU jest powolna i dlatego gra tego nie bedzie potrzebowac), a bardziej o to, aby CPU moglo czytac dane wypluwane przez kernele obliczeniowe na GPU.

Oczywiście masz rację, ale tylko pod warunkiem, ze pamięć CPU będzie faktycznie powolna, czyli np. że przyszłe komputery z procesorami IBM i Pascalem nie będą korzystać z GDDR5 czy GDDR6. Bo wtedy wczytywanie danych do GPU bezpośrednio z pamięci operacyjnej CPU byłoby właściwie oczywiste.
Promilus1984Zobacz profil
Poziom ostrzeżenia: 0%
Promilus19842014.03.27, 21:08
-1#52
I ta fizyka na 9600 albo zajeżdzała kompletnie wydajność, albo była g... warta w porównaniu z dzisiejszymi ''sztuczkami''.

Bzdura. Opłacało się nawet do kart pokroju GTX260 dawać dedyka do fizyki, bo same obciążone renderingiem i fizyką zdychały.
W tych lepiej wyglądających grach, z lepszą fizyką (Crysis 1), nie wyciągał nawet 20 klatek w 1280x1024!

Fizyka CPU only. Każda gra na havoku leci na CPU. Każda gra na autorskim silniku leci na CPU. Tutaj NVLink nic nie zmieni. Co dokładnie więc chciałeś tym przykładem przekazać, bo nie wiem.
Fizyka akcelerowana przez GPU to jedynie PhysX (aktualnie) więc sprawdź takie gry gdzie jest physx. A nie truj dupy.
No to widocznie masz bardzo słabą wyobraźnię.

Interfejs do pamięci do zarówno szyna danych, adresowa i linie sterujące. Bez jakiegokolwiek z tych elementów transmisja NIE DZIAŁA! Nie wiesz jak DRAM działa a byś chciał kozaczyć.



gregory003Zobacz profil
Poziom ostrzeżenia: 0%
gregory0032014.03.27, 22:54
Promilus1984 @ 2014.03.27 21:08  Post: 735714
I ta fizyka na 9600 albo zajeżdzała kompletnie wydajność, albo była g... warta w porównaniu z dzisiejszymi ''sztuczkami''.

Bzdura. Opłacało się nawet do kart pokroju GTX260 dawać dedyka do fizyki, bo same obciążone renderingiem i fizyką zdychały.
W tych lepiej wyglądających grach, z lepszą fizyką (Crysis 1), nie wyciągał nawet 20 klatek w 1280x1024!

Fizyka CPU only. Każda gra na havoku leci na CPU. Każda gra na autorskim silniku leci na CPU. Tutaj NVLink nic nie zmieni. Co dokładnie więc chciałeś tym przykładem przekazać, bo nie wiem.
Fizyka akcelerowana przez GPU to jedynie PhysX (aktualnie) więc sprawdź takie gry gdzie jest physx. A nie truj dupy.
No to widocznie masz bardzo słabą wyobraźnię.

Interfejs do pamięci do zarówno szyna danych, adresowa i linie sterujące. Bez jakiegokolwiek z tych elementów transmisja NIE DZIAŁA! Nie wiesz jak DRAM działa a byś chciał kozaczyć.

Sokrates mawiał: ''Wiem, że nic nie wiem'', no ale ty kolego Sokratesem niestety nie jesteś...
Zakładają że GPU i CPU będą pracować na jednolitych blokach pamięci, nie jest wymagane, a nawet nie wskazane, aby każda z jednostek obliczeniowych posiadała własną jednostkę adresową. Gdyby tak było, powstałby nowy problem: jak nie dopuścić do tego, aby nawzajem nie nadpisywały swoich danych.
Można by podzielić obszar pamięci (dostępną pulę adresów fizycznych) na część przeznaczoną dla GPU, CPU (i ewentualnie część wymiany), ale wtedy nie pracowałyby wcale na jednolitym bloku pąmięci, więc zysk z takiego rozwiązany byłby ograniczony, bo i tak ciągle dochodziłoby do kopiowania danych z części CPU do GPU i odwrotne.
Lepiej byłoby pozostawić zarządzanie adresowaniem i sygnałami sterującymi CPU, a jednostka GPU mogłaby jedynie przeprowadzać operacje na adresach przekazanych z CPU (CPU przygotowuje pamięć do zapisu lub odczytu danych, gdy GPU zgłasza takie żądanie, natomiast sama transmisja danych przebiega bezpośrednio).
Podobne rozwiązanie wykorzystywane jest w APU AMD i nie wyobrażam sobie, by miało to działać inaczej.
Teraz jasne?
skoti48Zobacz profil
Poziom ostrzeżenia: 0%
skoti482014.03.27, 23:14
Hashi @ 2014.03.27 19:49  Post: 735676
Ty mówisz o grach na PC. Słuchaj powiem Ci coś grałem chwilę w RAGE na PS3 i w moim skromnym zdaniu tekstury są gorsze niż np w KZ3 w Mawlr Graveyard

Ja mówię o grach na PC i konsole nowej generacji. Rage nie zachwyca wygladem... podałem przykład bo to jedyna gra nie na PS3 która obciąża przepustowość... na PS3 takie gry były, ale nie dlatego że tak chciano, a dlatego że nie było innej opcji ze względu na ograniczenia sprzętu.

Hashi @ 2014.03.27 19:49  Post: 735676
Naprawdę Carmack w ogóle mi nie zaimponował swoją marną technologią. Skoro magistrala nie jest ograniczeniem to czemu PS4 nie ma PCIExpress x1 i GPU z kosmosu @500GB/s? Odpowiedz mi tylko na to pytanie. Ja rozumiem, ze chcesz zabłysnąć swoją wiedzą ale kolego mi nie imponujesz w ogóle. W ogóle.

Już Ci odpowiedziano.

Hashi @ 2014.03.27 19:49  Post: 735676
Posłuchaj ja się opieram na wypowiedzi gościa, który swoją wiedzą by zdewastował ciebie, mnie i wszystkich tutaj razem wziętych.

Nie przesadzaj. Osoba z branży, ale żaden autorytet.

Hashi @ 2014.03.27 19:49  Post: 735676
Zacytuje Ci to ponownie:
Remember that the latest PCI Express 4.0 is just 31.51 GB/sec, way less than 176 GB/sec. A game runs on CPU + GPU. Pål-Kristian Engstad

Tak, tylko widać po tym porownaniu że wychodzi przyzwyczajenie z ps3... bardziej na miejscu jest porównywanie z ponad 300 GB/s w gpu. Gra działa na CPU i GPU... Ale przy obecnych na CPU działa wszystko poza grafika, a gpu sam sobie organizuje pracę.


Hashi @ 2014.03.27 19:49  Post: 735676
Mam dla ciebie zagadkę od niego. Jesteś dobry w ładowaniu łopatami ciężarówek i przewozenia z punktu A do B.
To move 1000 cars from A to B, what is more important: Speed (GHz), parking space (RAM) or traffic lanes (BW)?

Po pierwsze bardzo kiepska analogia lub źle opisana. Na przykładzie kuriera masowo kierującego do fabryki z produktami - powinno wyglądać to raczej tak.
- przygotowanie paczek do wysłania (wydajność CPU),
- wydajność trasy (połączenie szybkości pamięci z szerokością szyny) - tak jak na przepustowość tak na czas dojazdu wpływa równie mocno prędkość poruszania się jak i ilość linii.
- wielkość magazynu.
Wszystko jednak zależy od tego co robimy. Jeśli skompletowanie paczki trwa kilka dni, a odległość do fabryki to 100 metrow to trasa nie ma znaczenia. Jeśli paczka jest gotowa do wyslania w 30 minut, a trasa paczki pomiędzy kurierem a fabryka 2 dni drogi to optymalizacja trasy jest najwazniejsza.
W grach masz pierwsza opcje, ale warto zauważyć że fabryka ma duży magazyn i zamiast dowodzić po jednej części lepiej zapełnić magazyn i niech firma działa sama, a dosypać tylko te części których mnie ma.


Hashi @ 2014.03.27 19:49  Post: 735676
Co do Bozonu to nie chce mi się z tobą kłócić kolego bo najpierw, zapamiętaj to sobie (czytałem książki Hawkinga i Einsteina) to takie rzeczy próbuje się udowodnić za pomocą symulacji. To czysta matematyka kwantowa.

Wspomniany bozon to propozycja wyjaśnienia grawitacji jako cząstki oddziałujacego na równie teoretyczne pole oznaczającego mu masę. Nie ma tu żadnych podstaw matematycznych... to jest tylko pomysł że gdyby coś takiego istniało ładnie pasowało by do modelu standardowego (najmniejszych poszlak jednak że istnieje nie ma i nie da się liczyć - jedyna możliwość to zaobserwować go czyli zbudować najdroższe w historii urządzenie, aby sprawdzić).
Podobnie jest z ciemną materią. Widzimy ze grawitacja jest we wszechświecie większą niż wynika że znanej nam fizyki i nie mamy pojęcia czy to oddziaływanie grawitacyjne równoległego wszechświata, czy po prostu cząstki widma (ciemna materia)... czy może po prostu dobry tej pory nie wiemy jak grawitacja działa i wzory do kosza. Nic z tego matematycznie nie obliczysz a jedyna eksperymentalnie możliwa to wykrycie ciemnej materii (i w kopalniach siedzą z czujnikami aby wykryć).
PS. wiesz jak śmiesznie dostałeś wspomniane osoby? Einstein nie wierzył że mechanika kwantowa faktycznie odzwierciedla zachowanie cząstek, a Hawking nie zajmuje się tematem zupełnie i zajmuje się całe zycie teoria czarnych dziur... i ostatnio doszedł do wniosku że nie istnieją.


Hashi @ 2014.03.27 19:49  Post: 735676
Jeśli zadanie jest wykonane na CPU szybciej i wysłane szybciej (a steaming bedzie zawsze w grach na PS4) do GPU to GPU szybciej policzy klatkę? Według ciebie nie według mnie tak bo gra hula na CPU+GPU.

Zacznijmy od tego że na PS4 streaming jedyny jaki wystąpić może to dogrywanie z hdd... A temu do pci-e brakuje.
To już nie czasy rsx. Dziś masz transform feadback (gpu samo sobie oblicza dane wejściowe), shadery obliczeniowe które bez CPU przekazuje do rendering (fizyka na gpu), rysowanie niebezposredniegpu sam sobie generuje Draw calle... CPU dziś obsługuje wejście/wyjście, dźwięk, skrypty, ai.. gpu jest dziś samowystarczalne w grach. Nvlink jest ważnym projektem... W obliczeniach, a nie grach.
Promilus1984Zobacz profil
Poziom ostrzeżenia: 0%
Promilus19842014.03.27, 23:19
Zakładają że GPU i CPU będą pracować na jednolitych blokach pamięci, nie jest wymagane, a nawet nie wskazane, aby każda z jednostek obliczeniowych posiadała własną jednostkę adresową.

Jak sobie wyobrażasz GPU pozbawione jednostki adresującej pamięć lokalną karty? Bez adresowania nie ma dostępu.
(CPU przygotowuje pamięć do zapisu lub odczytu danych, gdy GPU zgłasza takie żądanie, natomiast sama transmisja danych przebiega bezpośrednio).

Tu z kolei sugerujesz by to CPU zarządzał pamięcią - a po co jak od tego jest kontroler pamięci. GPU ma swój i swoją lokalną pamięć, CPU ma swój i swoją lokalną pamięć - systemową. NVLink tego nie zmienia. Baa - nawet jak będziesz łączyć jednakowe karty graficzne to i tak każda z nich będzie zarządzać własną pamięcią - a nie będzie nad nimi nadrzędnego układu.
Podobne rozwiązanie wykorzystywane jest w APU AMD i nie wyobrażam sobie, by miało to działać inaczej.

W APU pamięć lokalna IGP oraz CPU to jedno i to samo. Nie masz dwóch różnych układów i dwóch różnych pamięci. IGP i CPU są klientami IMC. Jednego, bo też i jedna pamięć. Jak to się ma do tego:
Już dawno powinno się stworzyć interfejs, który udostępnia koprocesorom szynę danych z pominięciem CPU, zaś samo CPU zarządzać miałoby jedynie szyną adresową.

I jak ma się argument ze słabą wydajnością crysisa na 9600GT (to nie to samo co GSO) do mojej dygresji odnośnie karty dedykowanej do physx i wpływu szybkości slotu na wyniki w grach (w domyśle korzystających z physx).
Tak, dodawaj więcej szyn, więcej crossbarów do CPU - jakby to było do czegoś potrzebne.
grzszpZobacz profil
Poziom ostrzeżenia: 0%
grzszp2014.03.28, 01:41
Myslę, że należałoby sprostować artykuł w jednym miejscu. Tzw. Unified Memory JUŻ JEST (dostępne w ramach CUDA 6 RC) i jest obsługiwane od Keplerów w górę. Zachęcam do poczytania na ten temat choćby tutaj http://devblogs.nvidia.com/parallelforall/...ory-in-cuda-6/, cytując 'In CUDA 6, Unified Memory is supported starting with the Kepler GPU architecture (Compute Capability 3.0 or higher), on 64-bit Windows 7, 8, and Linux operating systems (Kernel 2.6.18+).'. Nie ma w tym żadnej większej filozofii, jest to po prostu nakładka zrealizowana m.in. w ramach CUDA Runtime, które ukrywa pochodzenie wskaźnika tzn. można go używać zarówno po stronie CPU jak i GPU do odczytu i zapisu pamięci, a system wykonawczy 'w tle' sam dba o odpowiedni transfer danych (tutaj nie ma cudów, bity same się nie teleportują kwantowo) i stara się to robić na tyle efektywnie na ile potrafi. Takie podejście sprawia, że dotychczasowe nazwijmy to manualne przenoszenie danych przez programistę via cudaMemcpy od tej pory staje się kolejną optymalizacją, a nie jak do tej pory koniecznością. W sposób znaczący pozwala to także na uproszczenie kodu, gdzie występują złożone struktury/klasy, dla których konieczne było zastosowanie tzw. głębokiej kopii ang. deep copy (dodam, że C/C++ nie ma natywnych mechanizmów refleksji), co w bardziej złożonych z nich stawało się już nietrywialne.

PS. Oczywiście mogę się mylić i może chodzi o coś jeszcze innego, ale nie wydaje mi się, żeby dwie różne technologie nazywali tak samo, bardziej skłaniałbym się ku temu, że skoro jest to nowość (z wyłączeniem samego UVA), wie o tym mała garstka ludzi, więc mogą się i tak tym pochwalić. Z tego co czytałem to wygląda to też w ten sposób, że oni to chcieli dalej rozwijać i ulepszać o kolejnych generacjach dodając m.in. wstępne pobieranie ang. prefetching oraz tzw. wskazówki ang. hints dla migracji danych.
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.28, 06:35
-4#57
@skoti48
Wiesz nie chce mi się z tobą znów kłócić bo ty żyjesz w swojej PCtowej bańce mydlanej. Piszesz coś o ograniczeniach PS3 ale ja ich naprawdę nie dostrzegam nawet dziś. Mam na tym sprzęcie gry z dynamicznym dźwiękiem 7.1 (5.1 DTS), obsługą PS Move i 3D (KZ3), które mają lepsze oświetlenie niż aktualne gry na PC, mają lepsze animacje (animacje podobne, podkreślam podobne do KZ2 widziałem dopiero w BF3, o U2 nie wspomnę bo na PC nie ma gry w takim wachlarzem ruchów postaci) mają deferred shading i lightining od startu konsoli (który dopiero w BF3 coś tam drapnęli), no i naprawdę dobre AI i ragdoll. A ze mają często tylko 720p i 30fps? Gdy gra jest downsamplingowana i na dobrym TV mi to nie przeszkadza bo i tak wygląda to bardzo bardzo dobrze. Fajnie by było mieć 1080p i 60fps w kazdej grze ale mnie bardziej jara oświetlenie (bo to ono nadaje fotorealizmu), animacje, mechanika gry i brak screen-tearingu. Pożegnam sie tym samplem..
http://www.youtube.com/watch?v=h2pcteiiY4Y
PS Streaming BD+HDD (tak jest na PS3). Nadal unikasz odpowiedzi na pewne pytanie.
Co do grawitacji nie rozumiesz mnie kolego. Grawitacja to powszechnie występująca we wszechświecie siła i tyle. Tu się kończy definicja. Nie musisz mi tez tłumaczyć mi czym jest Bozon (cząstka nadająca masę - co jest bzdurą). Napisałem o Bozonie w kontekście czarnych dziur bo czarne dziury to teoretycznie 'anomalia grawitacyjna' z której w teorii nie może uciec nic.. oprócz ciepła. A czym jest ciepło? Wiesz ostatnio sobie myślałem nad tym, czemu gorąca woda zamarza szybciej od zimnej? Dalej nie będe pisał bo to tylko moje dywagacje.
PS2 Wiesz ty chyba naprawdę jesteś mądrzejszy od głównego programisty ND (gościa który pisał biblioteki do PSX, PS2 i PS3). Składam Ci pokłony panie. Mnie wydaje, ze w jego pytaniu był podtekst dotyczący silników (enginów tak zwanych). Ja bym odpowiedział, ze kazdy z tych elementów jest wazny ale najważniejszy by było 1000 trafic lines.
funnel shift (tu sobie nie wkręcaj.. tak po prostu rzuciłem sobie nazwą bo fanie brzmi, coś jak iGPU, dGPU, CUDA itd chciałem się fajnie brzmiącym słowem pozegnać).
skoti48Zobacz profil
Poziom ostrzeżenia: 0%
skoti482014.03.28, 09:55
grzszp @ 2014.03.28 01:41  Post: 735782
Tzw. Unified Memory JUŻ JEST (dostępne w ramach CUDA 6 RC) i jest obsługiwane od Keplerów w górę.

Ściślej mówiąc UVA jest od Fermi https://developer.nvidia.com/sites/default...all/MPI/UVA.png ale w praktyce to się nie sprawdza... Ram jest powolny, a pci-e nie pomaga. lepiej wiedzieć z jakiej pamięci się czyta i pakować dane do tej szybszej... zunifikowanie adresowana tylko w teorii jest fajne (i w soc) a nvlink może sprawić ze bedzie można olac optymalizację pod sprzet, a pisać jeden kod uniwersalny (olewajac na czym program jest uruchomiony będzie jeden kod i wskaźniki do pamięci hosta (w programach wymagających jednak maksymalnej wydajnosci dalej będzie się kopiować dane do pamięci karty (kilkadziesiąt gb/s vs kilkaset).
UVA, UM, HSA mamy, ale bez czegoś w rodzaju nvlink jest to bez znaczenia... Z czymś jak Nvlink jest to mocny krok do przodu w obliczeniach (nie tak duży jak dynamiczna parallelizacja, ale spory).

Hashi @ 2014.03.28 06:35  Post: 735801
PS Streaming BD+HDD (tak jest na PS3).

W ps3 było uformowane w ram porcja i streamowane do vram. Ale proszę Cię nie gadaj bzdur ze przy przepustowości dysku pci-e jest jakimkolwiek ograniczeniem, bo to żałosne wręcz jest. Z tymi kilkuset mb/s poradziły sobie PCI-E 1.0 x2... a tobie mało PCI-E 4.0 x16? Litości.

Hashi @ 2014.03.28 06:35  Post: 735801
Nadal unikasz odpowiedzi na pewne pytanie.

Nie tyle unikam co nie zamierzam odpowiadać. Nie jestem darmową infolinią i jeśli chcesz zdobyć jakieś informacje to google wita. Ja jedynie będę protestował bzdury które wypisujesz w hołdzie zasadzie 'nie znam się, więc się wypowiem'.

Hashi @ 2014.03.28 06:35  Post: 735801
(czastka nadająca masę - co jest bzdurą).

Radzę nie wypowiadać się w temacie skoro nie wiesz czym jest bozon Higgsa.

Hashi @ 2014.03.28 06:35  Post: 735801
Napisałem o Bozonie w kontekście czarnych dziur bo czarne dziury to teoretycznie 'anomalia grawitacyjna' z której w teorii nie może uciec nic.. oprócz ciepła.

Po pierwsze czarne dziury to nie anomalie grawitacyjne, a normalne obiekty z dużą grawitacja dla których prędkość ucieczki jest wyższa/równa prędkości światła (co sprawia że anomalie występują tam we wszystkim poza grawitacja (przykładowo przestrzeń traci ciągłość). W teorii uciec mogą tylko tahiony (o ile istnieją). Ciepło to zwykłe światło (promieniowanie elektromagnetyczne) z tym że nasze oczy to nie widzą bo najłatwiej nam jest je dostrzec ciepło w podczerwieni (kamery termowizyjne), a to poza długością fal widzialnym przez człowieka.
Czarne dziury promieniuja, ale nie środka, a z horyzontu (promieniowanie Hawkinga polegające na tym że wirtualne pary cząstek subatomowych czastka-antyczastka (w mechanice kwantowej powstają takie pary cały czas po czym się anihiluja), że przed anihilacja jedną z cząstek wpada za horyzont, a druga staje się cząstka rzeczywista która może uciec bo nie wpadła za horyzont zdarzeń.

Hashi @ 2014.03.28 06:35  Post: 735801
Wiesz ty chyba naprawdę jesteś mądrzejszy od głównego programisty ND (gościa który pisał biblioteki do PSX, PS2 i PS3).

Znajomością archaicznych archtektur bije mnie na głowę... w wypadku tych nowoczesnych (nowe konsole i PC) jest odwrotnie.

PS. Co do reszty uznałem że nie ma sensu komentować tekstów fanboy-mitomana który w błędach widzi innowacje.
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.28, 10:47
-3#59
Więc jednak udało mi się znaleźć większego speca od głównego programisty NaughtyDog. Ba ty twierdzisz, ze znasz nowe konsole lepiej od niego. Chłopie po czym ty bredzisz jak ten gość jest głównym programistą ICETeam - a oni piszą silniki dla wszystkich studiów SCE. Więc co jak co ale devkit on widział najwcześniej ze wszystkich pracowników SCE.
Zaimponowałeś mi, poważnie. Co więcej mamy eksperta, który twierdzi, ze czarne dziury to normalne obiekty (potwierdzając ich istnienie). Nie wiem skąd ty się urwałeś ale skoro dla ciebie anomalią grawitacyjną nie jest obiekt, którego środek (według teorii) ma rozmiar punktu matematycznego, ma nieskończoną gęstość i grawitacje więc musisz być przybyszem z równoległego wszechświata o dość ciekawym podejściu do rzeczywistości.
To, ze się znasz na architekturach nie oznacza nic bo zrobić sprzęt mocny to nie sztuka, a sztuką jest go wykorzystać, napisać grę i zgarnąć nagrody na GDC.
PS Nigdzie nie twierdze, ze streaming z HDD zapcha magistralę, nie wiem dopowiadasz sobie coś miedzy wierszami (tak nawiasem to w PS3 streaming następuje równolegle z BD i HDD - dekompresją Edge ZLib w locie zajmuje się jeden SPU). Sam sobie zaprzeczasz by wyszło na twoje. Najpierw twierdzisz, ze magistrala jest ważna (RAGE) potem temu zaprzeczasz. To ciekawe, ze nazywasz kogoś fanboiem, będąc sam maniakiem Nv i OpenGL.
Kończe rozmowę. Pozdrawiam zdrowia życzę.
grzszpZobacz profil
Poziom ostrzeżenia: 0%
grzszp2014.03.28, 10:50
skoti48 @ 2014.03.28 09:55  Post: 735836
grzszp @ 2014.03.28 01:41  Post: 735782
Tzw. Unified Memory JUŻ JEST (dostępne w ramach CUDA 6 RC) i jest obsługiwane od Keplerów w górę.

Ściślej mówiąc UVA jest od Fermi https://developer.nvidia.com/sites/default...all/MPI/UVA.png


Racja, UVA jest używane 'pod spodem', natomiast w Unified Memory dla obecnych generacji rozwinęli to przez dodanie automatycznej migracji danych. Myślę, że głównie chodziło im o uproszczenie programowania w CUDA i przyciągnięcie większej ilości programistów, natomiast co do wydajności, piszą, że powinna by wyższa od pamięci niekopiowanej, cytując:

'CUDA has supported Unified Virtual Addressing (UVA) since CUDA 4, and while Unified Memory *depends on UVA*, they are not the same thing. UVA provides a single virtual memory address space for all memory in the system, and enables pointers to be accessed from GPU code no matter where in the system they reside, whether its device memory (on the same or a different GPU), host memory, or on-chip shared memory. It also allows cudaMemcpy to be used without specifying where exactly the input and output parameters reside. UVA enables “Zero-Copy” memory, which is pinned host memory accessible by device code directly, over PCI-Express, without a memcpy. Zero-Copy provides some of the convenience of Unified Memory, but none of the performance, because it is always accessed with PCI-Express’s low bandwidth and high latency.'
Zaloguj się, by móc komentować