komentarze
mocu1987Zobacz profil
Poziom ostrzeżenia: 0%
mocu19872014.03.27, 00:42
Zostaje nam czekać, a widzę że jest na co - przynajmniej na papierze ^^
szefonsZobacz profil
Poziom ostrzeżenia: 0%
szefons2014.03.27, 02:32
-11#2
Unified Memory dobra sprawa, ale podział będzie istniał, bo systemowy ram jest sporo wolniejszy od pamięci gpu.

W ogóle to bym wolał, aby pc przeszły metamorfozę bardziej w kierunku ps4, wspólna szybka pamięć, pamięć kupowałyby się osobno, ale dla całego systemu i gpu, grafiki by były bez.
TheMr.Zobacz profil
Poziom ostrzeżenia: 0%
TheMr.2014.03.27, 06:23
szefons @ 2014.03.27 02:32  Post: 735439
Unified Memory dobra sprawa, ale podział będzie istniał, bo systemowy ram jest sporo wolniejszy od pamięci gpu.

W ogóle to bym wolał, aby pc przeszły metamorfozę bardziej w kierunku ps4, wspólna szybka pamięć, pamięć kupowałyby się osobno, ale dla całego systemu i gpu, grafiki by były bez.

Żeby PC brał zadyszki na każdej nowej produkcji? Nie dziękuje, wole rozwiazanie nvidii.
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.27, 06:39
-9#4
Jak pisałem, ze magistrala CPU <-> GPU to ograniczenie to mnie tu chciano zjeść, ze gierki im chodzą tak samo na x1 i x16. Trzeba być naprawdę oszołomem to potęgi entej by twierdzić, ze magistrala nie jest ograniczeniem. Oficjalna strona Nv:
'NVLink technology unlocks the GPU's full potential by dramatically improving data movement between the CPU and GPU, minimizing the time that the GPU has to wait for data to be processed,' said Brian Kelleher, senior vice president of GPU Engineering at NVIDIA. 'NVLink enables fast data exchange between CPU and GPU, thereby improving data throughput through the computing system and overcoming a key bottleneck for accelerated computing today,' said Bradley McCredie, vice president and IBM Fellow at IBM. 'NVLink makes it easier for developers to modify high-performance and data analytics applications to take advantage of accelerated CPU-GPU systems.
accelerated computing applications typically move data from the network or disk storage to CPU memory, and then copy the data to GPU memory before it can be crunched by the GPU. With NVLink, the data moves between the CPU memory and GPU memory at much faster speeds, making GPU-accelerated applications run much faster.
http://nvidianews.nvidia.com/Releases/NVID...mputin-ad6.aspx
Co najciekawsze, mówi się o przyroście 5-12 razy względem PCIExpress 3.0. Czyli 5-12x 16GB/s - 32GB/s. Nie sprecyzowano, czy prędkość ta dotyczy jednego modułu, czy kilku SLI, czy obu kierunków czy łącznej prędkości ale i tak dałoby to:
5x 31.5GB/s = 157GB/s do 12x 378GB/s (przy maksymalnym założeniu, ze dotyczy to prędkości w obu kierunkach i jednego układu).
I teraz proszę nie wieszać psów na mnie ale.. teraz ponownie zacytuje lead programmera NaughtyDog:
Remember that the latest PCI Express 4.0 is just 31.51 GB/sec, way less than 176 GB/sec. A game runs on CPU + GPU.
https://twitter.com/mrengstad
Czyli jest w tym sens. Nv ma wejść w 2016 roku i jest pokrywało by się to z tym co mówił Cerny. Pełny potencjał HSA i hUMA odblokowany będzie w 2016-2017 (przynajmniej w przypadku PS4). Czekam na atak maniaków PC.
Co do pamięci 3D to wiele firm produkujących SoC pracuje nad tym bajerem i pokazano wiele prototypów takich stacków. Z tego co pamiętam to IBM, Micron i Toshiba grają tu pierwsze skrzypce. Juz w 2007 pokazali 3D nand stack:
http://www.dailytech.com/Toshiba+Reveals+3...article7659.htm
Co do superkomputerów to nie wiem czy nie dochodzimy do punktu 'zero'. Odkryliśmy Bozon Higsa, czarną materię, potrafimy rozwiązać większość problemów naukowych, medycznych, pogodę tez w pewnym stopniu więc nie wiem czy to całe podnoszenie mocy nie idzie w gwizdek, Choć napewno sprawność energetyczna jest najważniejsza w tym kontekście. Lepiej by pomyśleli nad problemem zwiększania wydajności pracy, która przyczyni się w długim okresie do spadku zatrudnienia na świecie (taki paradoks). Nawet Bill Gates ostatnio poruszył ten temat w kontekście robotyki. Wszystko było by fajnie jakby roboty zajmowały sie np rolnictwem tylko wtedy musieli byśmy wrócić do komuny i socjalizmu.
Promilus1984Zobacz profil
Poziom ostrzeżenia: 0%
Promilus19842014.03.27, 07:02
Trzeba być naprawdę oszołomem to potęgi entej by twierdzić, ze magistrala nie jest ograniczeniem.

Jest, ale nie takim na jakie lekarstwem będzie nvlink. PCI-E 3.0 16x ma przepustowość bodajże 16GB/s w jedną stronę. DDR3-2400 w dualu ma bodajże 38GB/s i jednocześnie musi też wykarmić CPU, których apetyt dla 4GHz intela z IPC dajmy na to 1.2 w trybie 64b może wynosić właśnie 38GB/s - per core!
NVLink to byłaby fajna sprawa w superkomputerach gdzie można w jednym węźle mocno zwiększyć komunikację między wszystkimi elementami składowymi, na desktopach to może mieć delikatny wpływ dla SLI i klastrów obliczeniowych. Nic dla 'kowalskiego'.
SunTzuZobacz profil
Poziom ostrzeżenia: 0%
SunTzu2014.03.27, 07:03
wreszcie to ma ręce nogi, fajnie to poskładał Vega... brakuje tylko linka to prezentacji, która jest dostępna.
http://www.twitch.tv/nvidia/c/3957218
Promilus1984 @ 2014.03.27 07:02  Post: 735451
Trzeba być naprawdę oszołomem to potęgi entej by twierdzić, ze magistrala nie jest ograniczeniem.

Jest, ale nie takim na jakie lekarstwem będzie nvlink. PCI-E 3.0 16x ma przepustowość bodajże 16GB/s w jedną stronę. DDR3-2400 w dualu ma bodajże 38GB/s i jednocześnie musi też wykarmić CPU, których apetyt dla 4GHz intela z IPC dajmy na to 1.2 w trybie 64b może wynosić właśnie 38GB/s - per core!
NVLink to byłaby fajna sprawa w superkomputerach gdzie można w jednym węźle mocno zwiększyć komunikację między wszystkimi elementami składowymi, na desktopach to może mieć delikatny wpływ dla SLI i klastrów obliczeniowych. Nic dla 'kowalskiego'.


Mało tego twierdził, że limitem w grach jest PCI-E, nie chodziło mu o GPGPU, a o zwykłe gry...
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.27, 07:05
-11#7
Promilus1984 @ 2014.03.27 07:02  Post: 735451
Trzeba być naprawdę oszołomem to potęgi entej by twierdzić, ze magistrala nie jest ograniczeniem.

Jest, ale nie takim na jakie lekarstwem będzie nvlink. PCI-E 3.0 16x ma przepustowość bodajże 16GB/s w jedną stronę. DDR3-2400 w dualu ma bodajże 38GB/s i jednocześnie musi też wykarmić CPU, których apetyt dla 4GHz intela z IPC dajmy na to 1.2 w trybie 64b może wynosić właśnie 38GB/s - per core!
NVLink to byłaby fajna sprawa w superkomputerach gdzie można w jednym węźle mocno zwiększyć komunikację między wszystkimi elementami składowymi, na desktopach to może mieć delikatny wpływ dla SLI i klastrów obliczeniowych. Nic dla 'kowalskiego'.

Moze mieć dla Kowalskiego jeśli Nv użyje tego w SoC opartym na ARM. Czyli per core łącze NvLink.
Ja pisze tez w kontekście PS4, bo na podstawie schematów według mnie tam per core jest 8 magistral -> GPU. Dlatego przepustowość 176GB/s dotyczy łącznej przepustowości całego układu CPU - GPU.
Popatrz na PS3. Magistrala ma łączną max przepustowość (zdławioną) 72GB/s i potrafi nakarmić 25,6GB/s RAM CPU i 35GB/s GPU łącznie.
EDIT
O widze raporty się sypią bo gimba nie potrafi merytorycznie podchodzić do tematu. Tak tak wasze PC GPU są cudowne, fantastyczne, piękne i jeszcze raz cudowne. 90% tu piszących ma zerowe pojęcie o podstawach informatyki na poziomie podstawówki. Ja takowy posiadam.
darkmartinZobacz profil
Poziom ostrzeżenia: 0%
darkmartin2014.03.27, 07:48
Moim zdaniem najciekawsze w NVLInk jest połączenie między GPU.
Przypuszczam że zestawy 'SLI' będą używać wspólnej pamięci wszystkich GPU jako jednej przestrzeni adresowej w węzłach NUMA (NUMA GPU).
Dodanie kolejnego modułu GPU spowoduje wzrost faktycznej ilości pamięci.
Być może zakończy do erę naprzemiennego renderowania klatek.
Dodanie modułu GPU będzie tak samo proste jak wstawienie kolejnego procesora do socketu. Także pod względem oprogramowania. System być może pokaże więcej modułów CUDA jako całość. Jako jedno urządzenie obliczeniowe.
Być może chcąc osiągnąć wydajniejsze GPU po prostu wstawimy od 1 do np 4 takie moduły Pascal.
AssassinZobacz profil
Poziom ostrzeżenia: 0%
Assassin2014.03.27, 08:02
-5#9
Mnie się wydawało, że w Ps4 z kontrolerem pamięci łączy się tylko 4-rdzeniowy moduł CPU (są 2 takie), ale mogę się mylić.

W każdym razie jeśli chodzi o przepustowość PCIE to może być ona wąskim gardłem, ale nie musi - wszystko zależy od tego, jak pisane będzie oprogramowanie. Przy obecnym sofcie w zasadzie nie ma różnicy między PCIE 2.0 a 3.0 czy też 8x a 16x (poza SLI/CF). Gdyby jednak drastycznie zwiększyć przepustowość na linii CPU-GPU to w przypadku np. takich układów jak Core i7 Haswell i GTX 780 Ti dałoby to ciekawe pole do popisu dla programistów.

Oczywiście t w przypadku takich układów jak APU PS4, APU AMD dla pecetów czy planowanego APU Nvidii z ARM ma to drugorzędne znaczenie - po prostu wąskie gardło jest w innym miejscu (w przypadku PS4 to przede wszystkim wydajność CPU). Nie ma więc miejsca na żadne czary.
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.27, 08:26
-11#10
Assassin @ 2014.03.27 08:02  Post: 735461
Mnie się wydawało, że w Ps4 z kontrolerem pamięci łączy się tylko 4-rdzeniowy moduł CPU (są 2 takie), ale mogę się mylić.

W każdym razie jeśli chodzi o przepustowość PCIE to może być ona wąskim gardłem, ale nie musi - wszystko zależy od tego, jak pisane będzie oprogramowanie. Przy obecnym sofcie w zasadzie nie ma różnicy między PCIE 2.0 a 3.0 czy też 8x a 16x (poza SLI/CF). Gdyby jednak drastycznie zwiększyć przepustowość na linii CPU-GPU to w przypadku np. takich układów jak Core i7 Haswell i GTX 780 Ti dałoby to ciekawe pole do popisu dla programistów.

Oczywiście t w przypadku takich układów jak APU PS4, APU AMD dla pecetów czy planowanego APU Nvidii z ARM ma to drugorzędne znaczenie - po prostu wąskie gardło jest w innym miejscu (w przypadku PS4 to przede wszystkim wydajność CPU). Nie ma więc miejsca na żadne czary.

Co do kontrolera pamięci to nie wiem dokładnie jak on jest wkomponowany ale opieram się głównie na wypowiedzi głównego programisty SCE oraz Cernego (there are multiple levels of arbitration in the hardware to determine what runs, how it runs, and when it runs, alongside the graphics that's in the system) oraz na schemacie GPU w VGLeaks (chodzi mi o Process Buffers i ringi zaraz pod ścieżkami z rdzeni CPU):
http://2.bp.blogspot.com/-XO9fGRqurd4/Ulex..._queues+(1).jpg
Samo zdjęcie SoC tez daje wgląd w układ kontrolerów (jest ich 3, jeden duzy koło rdzeni CPU i 2 mniejsze po bokach GPU, choć i tak nie wiadomo jak wygląda połączenie wewnątrz). Tak jakby rdzenie CPU (patrząc na szerokość kontrolera pamięci współdzielonej) miały 1/2 przepustowości GDDR5 (kontroler po lewej):
http://www.extremetech.com/wp-content/uplo...ineered-apu.jpg
Po prawej jest wyjście do kontrolera video HDMI i innych peryferii. Patrząc na zagospodarowanie przestrzenią nie dało się tego inaczej (lepiej) rozmieścić. Jedynie 3D stacked RAM by tu wniósł dodatkowy ficzer.


HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.27, 08:43
-9#11
Głównym ograniczeniem nie jest CPU ale właśnie prędkość pamięci -> rdzeń CPU. Ostatnio ze skotim48 o tym rozmawialiśmy, ze 1 rdzeń w PS3 ma 25,6GB/s, a cały RAM ma 25,6GB/s (czyli brakuje x8, dlatego używa się sztuczek typu cut-scenki). Tutaj (PS4/xboxOne) przy 1,6GHz mielibyśmy 12,8GB/s per core (prędkości rdzenia). Gdyby każdy rdzeń miał bezpośrednie połączenie z RAMem potrzeba by było 102,4GB/s (analogicznie eSRAM w XboxOne ma taką przepustowość) by rdzenie miały pełną wydajność. Można by to porównać do pamięci 4 poziomu L4. W XboxOne wychodzi na to, ze każdy rdzeń miałby ekstra pamięci 4MB @12,8GB/s (8 x 12,8GB/s =102,4GB/s). W PS4 moze być (podkreślam moze być), ze rdzenie mają 102,4GB/s i 73,6 zostaje dla GPU. W XboxOne 102,4GB/s + 68GB/s DDR3. Rożnica to ilość pamięci. Oczywiście mogę się mylić.
mbrzostekZobacz profil
Poziom ostrzeżenia: 0%
Moderatormbrzostek2014.03.27, 08:55
Hashi @ 2014.03.27 08:26  Post: 735464
zdjęcie SoC tez daje wgląd w układ kontrolerów (jest ich 3, jeden duzy koło rdzeni CPU i 2 mniejsze po bokach GPU, choć i tak nie wiadomo jak wygląda połączenie wewnątrz)

To, co się wyróżnia na zdjęciu jądra, to tylko interfejs GDDR, warstwa fizyczna. Jest rozmieszczony przy krawędziach, żeby łatwiej było wyprowadzić sygnały poza obudowę - nie ma to związku z bliskością do elementów w samym jądrze. Logiczna część kontrolera pamięci jest w centrum, między blokami Jaguar i GCN.
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.27, 08:57
-1#13
mbrzostek @ 2014.03.27 08:55  Post: 735467
Hashi @ 2014.03.27 08:26  Post: 735464
zdjęcie SoC tez daje wgląd w układ kontrolerów (jest ich 3, jeden duzy koło rdzeni CPU i 2 mniejsze po bokach GPU, choć i tak nie wiadomo jak wygląda połączenie wewnątrz)
Logiczna część kontrolera pamięci jest w centrum, między blokami Jaguar i GCN.

Dokładnie, jest pomiędzy modułami Jaguar (nota bene wielkość tej część logicznej o której piszesz jest wielkości całego jednego modułu Jaguar; to tak jakby magistrala miała wielkość 4 rdzeni + L2). Tyle, ze według mnie to jest hybrydowa magistrala CPU <-> GPU (->RAM). To znaczy magistrala pierścieniowa (taka jak w GPU AMD i PS3) tyle, ze tutaj jest znacznie bardziej rozbudowana (rdzenie CPU <-> rdzenie GPU).
Wiadomo, ze takie kontrolery na zewnątrz nie bedą miały prędkości pamięci wewnątrz ale zawsze to jakiś progres. Oficjalnych danych nie ma ale z tego co czytałem w SoC ten włożono 1mldUSD.
W PS3 magistrala powierzchniowo to było coś wielkości jednego rdzenia.
eagleZobacz profil
Poziom ostrzeżenia: 0%
eagle2014.03.27, 09:23
Zapowiada się interesująco.
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.27, 09:28
eagle @ 2014.03.27 09:23  Post: 735470
Zapowiada się interesująco.

Osobiście dla mnie to największy progres ostatnich lat. Fajny by był taki Pascal na ARM/Intel ze stacked 3D RAM wielkości ATX mini. Można by sobie taki komputerek położyć koło TV. Encoding filmu 1080p w kilka sekund :-)
AranautZobacz profil
Poziom ostrzeżenia: 0%
Aranaut2014.03.27, 09:51
-4#16
'Pascal to architektura, którą NVIDIA wprowadzi jako następną, zamiast architektury Volta, która nie została anulowana, a po prostu pojawi się po Pascalu. Okazuje się, że firma zwyczajnie zamieniła nazewnictwa. ' chyba pojawi sie po Maxwellu ;)
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2014.03.27, 09:57
-2#17
Aranaut @ 2014.03.27 09:51  Post: 735475
'Pascal to architektura, którą NVIDIA wprowadzi jako następną, zamiast architektury Volta, która nie została anulowana, a po prostu pojawi się po Pascalu. Okazuje się, że firma zwyczajnie zamieniła nazewnictwa. ' chyba pojawi sie po Maxwellu ;)

Volta z tego co pamiętam miała mieć 3D stacked RAM.
Adi-CZobacz profil
Poziom ostrzeżenia: 0%
Adi-C2014.03.27, 10:17
-2#18
Kompletnie nie rozumiem jak to łącze ma wyglądać. Czy ono w ogóle trafi do desktopów? Tzn. dziś wsadzamy kartę do portu pcie i wio. A tu jak to będzie niby wyglądać, chcą zrobić jakiś nowy port...? Czy jak? Przecież to by wymagało nowych płyt głównych?
Czy chcą jakoś magicznie przesyłać te dane po pci-e, tylko szybciej :E ?
O ile dobrze rozumiem to trafi tylko do superkomputerów itp?

Pomyśleć że następne konsole będą oparte o drugą-trzecią generację tego, zunifikowane cpu,gpu, i do tego stacking ramu, być może bezpośrednio na cpu/gpu.
Tam już praktycznie chyba nie będzie wąskich gardeł. Pięknie.

Chyba że zamiast sprzętu będzie chmura... :E
darkmartinZobacz profil
Poziom ostrzeżenia: 0%
darkmartin2014.03.27, 11:07
Złacze moze wyglądać np tak.


NVLink raczej zobaczymy tylko w kartach wieloprocesorowych.
Na platformie Intela raczej mało prawdopodobne.
Zbyt duża konkurencja dla intelowskiego rozwiazania.
Zresztą procesor GPU intela lada moment będzie pakowany w socket jak zwykły XEON.

Nvidia musi kombinować
QantexZobacz profil
Poziom ostrzeżenia: 0%
Qantex2014.03.27, 11:17
-1#20
To żadna nowość, kiedyś to się nazywało turbo cache i efekt był żałosny.
Zaloguj się, by móc komentować