pawełpclab - oczywiście że generacja adresów w kodzie następuje wystarczająco często by takie proporcje miały sens. W końcu z dupy oni owych proporcji nie wyciągają tylko z analizy kodu generowanego przez kompilator i wykonywanego na modelu procesora. Zostaje kwestia dwóch FPU czyli jednak większy power niż w phenomie na pojedynczy wątek, a nieco większy power int jeśli chodzi o 2n wątków względem SB. Prawda?
W bulldozerze masz 4 drożny dekoder na moduł. W Core 4 drożny dekoder na rdzeń. W bulldorzerze masz dla jednego wątku 4 instrukcje w cyklu, dla core również 4 instrukcje. Gdy dojdzie drugi wątek na moduł nadal przypadają 4 instrukcje, ale dla 2 wątków, a w Core na 2 wątki również masz nadal 4 instrukcje na cykl.
Idąc dalej. Bulldozer ma dwa moduły po 2ALU i 2AGU. Jeden wątek może działać tylko na jednym module INT, ale ma w tym czasie pełny dostęp do całęgo FPU i dekodera. Jednak gdy dochodzi drugi wątek, ma on dostęp do swojego własnego modułu INT (2 ALU i 2 AGU). U intela 1 wątek ma 3ALU i 2AGU, ale dwa wątki również mają 3 ALU i 2AGU.
Kolejny błąd - Twoje porównanie bulldozera do phenoma II. W phenomie masz 3ALU/AGU - jednostki kompleksowe(złożone) które mogą wykonać jedną LUB drugą operację i trójdrożny dekoder instrukcji. Czyli w porównaniu do bulldozera dla jednego wątku sytuacja wygląda tak.
Więc no niestety, ale Dla mnie to tutaj najbardziej odstaje właśnie K10, a bulldozer ma jedną jednostkę ALU mniej od Sandy Bridge, więc wyprzedzić intela,to zapewne nie wyprzedzi, ale K10 przegoni. Jednak gdy moduł zostanie obciążony dwoma wątkami, to są spore szanse, że Sandy bridge zostanie przegoniony.
'W pierwszym zdaniu twierdzisz dla jednego wątku można wykonać 4 instrukcje. W drugim że dwa watki mogą wykonać 4 instrukcje'
Tak twierdzę - i u intela jest taka sama sytuacja dokładnie. Dla jednego wątku bulldozer może przeznaczyć swoje wszystkie jednostki poza drugim modułem INT.
pps. macro-ops nie daje aż tak wiele. Wystarczy zrobić test core2 na 32 i 64bitowym systemie - w core2 macro-ops działało tylko w środowisku 32bitowym, a dopiero w nehalemie doszła obsługa w 64bitowym. Różnica byłą taka, że Athlony x2 traciły do core2 około 2-5% mniej po przejściu w środowisko 64bitowe.
Moim zdaniem to phenom II ma bardziej wydajną bo uniwersalna jednostkę niż rdzeń buldozera. Phenom II ma trzydroży dekoder i jest w stanie wykonać trzy dowolne instrukcje. Buldozer ma czterodrożny dekoder i jest w stanie wykonać 4 instrukcje - ale tylko pod warunkiem że dwie z nich będą odnosiły się do ALU a dwie do AGU ( mowa o jednym wątku). Pytanie jak często kod x86 będzie w pełni wykorzystywał możliwości rdzenia buldozera, jak częste będą sytuacje gdy część jednostek buldozera będzie niewykorzystana? Bo że takie sytuacje będą miały miejsce to nie ma wątpliwości. Pomysł by wykorzystać aktualnie niewykorzystane jednostki jest ideą intelowskiego HT. A na podstawie tego jaki przyrost mocy daje HT można przypuszczać że całkiem sporo tych jednostek jest niewykorzystywanych.
Zgadzam się natomiast z tym ze buldozer w aplikacjach wielowątkowych może okazać się nawet nieznacznie szybszy od sandy bridge ( oczym w swoim czasei pisałem na innym portalu którego nazwy nie można wymawiać ) . 'Nieznacznie' dlatego że wprawdzie jednostk przetwarzające modułu buldozera w sytuacji obsługi dwóch wątków powinny mu te przewagę zapewnić ale będą wtedy hamowane przez czterodrożny dekoder.
Natomiast w sytuacji aplikacji jednowątkowej intele będa nadal zdecydowanie szybsze.
Jeżeli było by tak jak piszesz w przypadku phenoma, to nie powinien on za bardzo odstawać od core. A odstaje. SB ma tylko 1 jednostkę ALU więcej od Bulldozera, więc nie wiem jakim cudem bulldozer był by od niego dużo wolniejszy.
Kolejna sprawa, to FPU. Bulldozer dla jednego wątku ma 256bitowe FPU (lub 2x128Bit), a phenom posiada tylko 128bitowe FPU. Nie same jednostki int stanowią o wydajności, więc tutaj kolejna duża przewaga bulldozera. Inna sprawa, że samo AMD już potwierdziło wyższą wydajność pojedynczego wątku w stosunku do phenoma i nie ma podstaw do tego, aby im nie wierzyć. W najgorszej sytuacji bulldozer w specyficznych zastosowaniach w których teraz phenom wypada najlepiej (dogania core) będzie oferował podobną wydajność, zaś tam gdzie phenom odstaje od core, bulldozer będzie sporo szybszy od phenoma.
To straszne. Intel (AMD zresztą też) będzie palić się w piekle za sztucznie spowolnione procki, czyli... prawie wszystkie. No bo ile sztuk nie ma choćby potencjału OC by wskoczyć o numer wyżej?
W bulldozerze masz 4 drożny dekoder na moduł. W Core 4 drożny dekoder na rdzeń. W bulldorzerze masz dla jednego wątku 4 instrukcje w cyklu, dla core również 4 instrukcje. Gdy dojdzie drugi wątek na moduł nadal przypadają 4 instrukcje, ale dla 2 wątków, a w Core na 2 wątki również masz nadal 4 instrukcje na cykl.
Idąc dalej. Bulldozer ma dwa moduły po 2ALU i 2AGU. Jeden wątek może działać tylko na jednym module INT, ale ma w tym czasie pełny dostęp do całęgo FPU i dekodera. Jednak gdy dochodzi drugi wątek, ma on dostęp do swojego własnego modułu INT (2 ALU i 2 AGU). U intela 1 wątek ma 3ALU i 2AGU, ale dwa wątki również mają 3 ALU i 2AGU.
Kolejny błąd - Twoje porównanie bulldozera do phenoma II. W phenomie masz 3ALU/AGU - jednostki kompleksowe(złożone) które mogą wykonać jedną LUB drugą operację i trójdrożny dekoder instrukcji. Czyli w porównaniu do bulldozera dla jednego wątku sytuacja wygląda tak.
Więc no niestety, ale Dla mnie to tutaj najbardziej odstaje właśnie K10, a bulldozer ma jedną jednostkę ALU mniej od Sandy Bridge, więc wyprzedzić intela,to zapewne nie wyprzedzi, ale K10 przegoni. Jednak gdy moduł zostanie obciążony dwoma wątkami, to są spore szanse, że Sandy bridge zostanie przegoniony.
'W pierwszym zdaniu twierdzisz dla jednego wątku można wykonać 4 instrukcje. W drugim że dwa watki mogą wykonać 4 instrukcje'
Tak twierdzę - i u intela jest taka sama sytuacja dokładnie. Dla jednego wątku bulldozer może przeznaczyć swoje wszystkie jednostki poza drugim modułem INT.
pps. macro-ops nie daje aż tak wiele. Wystarczy zrobić test core2 na 32 i 64bitowym systemie - w core2 macro-ops działało tylko w środowisku 32bitowym, a dopiero w nehalemie doszła obsługa w 64bitowym. Różnica byłą taka, że Athlony x2 traciły do core2 około 2-5% mniej po przejściu w środowisko 64bitowe.
Moim zdaniem to phenom II ma bardziej wydajną bo uniwersalna jednostkę niż rdzeń buldozera. Phenom II ma trzydroży dekoder i jest w stanie wykonać trzy dowolne instrukcje. Buldozer ma czterodrożny dekoder i jest w stanie wykonać 4 instrukcje - ale tylko pod warunkiem że dwie z nich będą odnosiły się do ALU a dwie do AGU ( mowa o jednym wątku). Pytanie jak często kod x86 będzie w pełni wykorzystywał możliwości rdzenia buldozera, jak częste będą sytuacje gdy część jednostek buldozera będzie niewykorzystana? Bo że takie sytuacje będą miały miejsce to nie ma wątpliwości. Pomysł by wykorzystać aktualnie niewykorzystane jednostki jest ideą intelowskiego HT. A na podstawie tego jaki przyrost mocy daje HT można przypuszczać że całkiem sporo tych jednostek jest niewykorzystywanych.
Zgadzam się natomiast z tym ze buldozer w aplikacjach wielowątkowych może okazać się nawet nieznacznie szybszy od sandy bridge ( oczym w swoim czasei pisałem na innym portalu którego nazwy nie można wymawiać ) . 'Nieznacznie' dlatego że wprawdzie jednostk przetwarzające modułu buldozera w sytuacji obsługi dwóch wątków powinny mu te przewagę zapewnić ale będą wtedy hamowane przez czterodrożny dekoder.
Natomiast w sytuacji aplikacji jednowątkowej intele będa nadal zdecydowanie szybsze.
W AMD dekoder dla jednego wątku jest cały dostępny, więc również może wykonać 4 instrukcje w takcie. Jednak gdy mamy 2 wątki, to te 4 instrukcje może wykonać jeden moduł. U Intel sytuacja podobna - 1 wątek - 4 instrukcje, 2 wątki również 4 instrukcje. Rożnica jest tylko taka, że Intel ma 3 ALU i 2 AGU, a AMD 4ALU i 4AGU (na cały moduł dla 2 wątków) jednak gdy moduł obsługuje jeden wątek dostępne są jedynie 2 ALU i 2 AGU, więc o jedną jednostkę ALU mniej niż u intela... więc zastanawia mnie zasadność użycia określenia 'zdecydowanie szybszy'.
Po prawdzie to w intelach jest jeszcze jeszcze jednak jednostka odpowiadająca za komunikacje z pamięcią. Trzeba także brać pod uwagę że macro-ops w intelach pozwalają wykonać dwie instrukcji w jednym ALU.
'W AMD dekoder dla jednego wątku jest cały dostępny, więc również może wykonać 4 instrukcje w takcie. Jednak gdy mamy 2 wątki, to te 4 instrukcje może wykonać jeden moduł.'
W pierwszym zdaniu twierdzisz dla jednego wątku można wykonać 4 instrukcje. W drugim że dwa watki mogą wykonać 4 instrukcje. Po co wiec drugi moduł skoro jeden moduł wykonuje 4 instrukcje a dwa moduły ... wykonują 4 instrukcje
A wracając do wydajności buldozera w jednym wątku. Porównajmy wiec ten pojedynczy watek buldozera 2ALU+ 2 AGU z pojedynczym wątkiem phenoma II
3 ALU + 3 AGU. Jaka jest dysproporcja w jednym wątku miedzy phenom II a core ix wiadomo.
Wychodzi na to ze buldozer ma słabszy pojedynczy wątek od phenoma II . Być może jakieś optymalizacje pozwolą podnieść wydajność pojedynczego wątku buldozera do poziomu zbliżonego do phenoma II. Być może ... Jednak przy obecnym stanie wiedzy nt architektury buldozera nie ma co liczyć na to że moc pojedynczego wątku będzie choć zbliżona do obecnych CPU intela.
Z kolei z testu preview sandy bridge wychodzi ze tam moc pojedynczego wątku jeszcze wzrosła.
Dalej sytuacji nie rozumiesz więc jużtłumaczę.
W bulldozerze masz 4 drożny dekoder na moduł. W Core 4 drożny dekoder na rdzeń. W bulldorzerze masz dla jednego wątku 4 instrukcje w cyklu, dla core również 4 instrukcje. Gdy dojdzie drugi wątek na moduł nadal przypadają 4 instrukcje, ale dla 2 wątków, a w Core na 2 wątki również masz nadal 4 instrukcje na cykl.
Idąc dalej. Bulldozer ma dwa moduły po 2ALU i 2AGU. Jeden wątek może działać tylko na jednym module INT, ale ma w tym czasie pełny dostęp do całęgo FPU i dekodera. Jednak gdy dochodzi drugi wątek, ma on dostęp do swojego własnego modułu INT (2 ALU i 2 AGU). U intela 1 wątek ma 3ALU i 2AGU, ale dwa wątki również mają 3 ALU i 2AGU.
Kolejny błąd - Twoje porównanie bulldozera do phenoma II. W phenomie masz 3ALU/AGU - jednostki kompleksowe(złożone) które mogą wykonać jedną LUB drugą operację i trójdrożny dekoder instrukcji. Czyli w porównaniu do bulldozera dla jednego wątku sytuacja wygląda tak.
Więc no niestety, ale Dla mnie to tutaj najbardziej odstaje właśnie K10, a bulldozer ma jedną jednostkę ALU mniej od Sandy Bridge, więc wyprzedzić intela,to zapewne nie wyprzedzi, ale K10 przegoni. Jednak gdy moduł zostanie obciążony dwoma wątkami, to są spore szanse, że Sandy bridge zostanie przegoniony.
'W pierwszym zdaniu twierdzisz dla jednego wątku można wykonać 4 instrukcje. W drugim że dwa watki mogą wykonać 4 instrukcje'
Tak twierdzę - i u intela jest taka sama sytuacja dokładnie. Dla jednego wątku bulldozer może przeznaczyć swoje wszystkie jednostki poza drugim modułem INT.
pps. macro-ops nie daje aż tak wiele. Wystarczy zrobić test core2 na 32 i 64bitowym systemie - w core2 macro-ops działało tylko w środowisku 32bitowym, a dopiero w nehalemie doszła obsługa w 64bitowym. Różnica byłą taka, że Athlony x2 traciły do core2 około 2-5% mniej po przejściu w środowisko 64bitowe.
Cwaniaki z intela chcą zmniejszyć koszta - zamiast utrzymywać kilka linii produkcji procków będą robili tylko jeden i ograniczali go softwarowo, no no...
Bez zbytniego demonizowania jest to proceder tak mały, że niewiele wart tylko jako ciekawostka. W tym wypadku klienci firmy Gateway mogą poczuć się różnie... A reszta tylko popatrzeć, skomentować. W zasadzie chyba o to chodzi Intelowi, zobaczyć jakie reakcje takie coś wywoła i czy warto pójść szerzej z taką ofertą w większej ilości modeli a nie, jak w tym wypadku, słabego i taniego modelu. Równie dobrze inicjatywa mogła popłynąć ze strony Gatewaya, a Intel tylko się dostosował do zamówienia. W końcu jedyni producenci, którzy mają taki procesor w swym modelu! I przy okazji reklama! Ale wszystko może się odwrócić na rzecz podejścia zupełnie nieprzydatnego dla Intela... a wręcz szkodliwego! Jak widzę, tytuły, komentarze, że to takie naganne, złodziejskie... Jakby dotyczyło WSZYSTKICH modeli procesorów, nie dajmy się zwariować Intel i tak zarabia, ma nieco przydrogie procki ale to już temat na inny artykuł...
AMD - 2 core każde zdolne wykonać 2 instrukcje w takcie
INTEL 1 core zdolny wykonać 4 instrukcje w takcie
W aplikacjach wielowątkowych wydajność podobna. W aplikacjach jednowątkowych intel zdecydowanie szybszy
I co jeszcze?
W AMD dekoder dla jednego wątku jest cały dostępny, więc również może wykonać 4 instrukcje w takcie. Jednak gdy mamy 2 wątki, to te 4 instrukcje może wykonać jeden moduł. U Intel sytuacja podobna - 1 wątek - 4 instrukcje, 2 wątki również 4 instrukcje. Rożnica jest tylko taka, że Intel ma 3 ALU i 2 AGU, a AMD 4ALU i 4AGU (na cały moduł dla 2 wątków) jednak gdy moduł obsługuje jeden wątek dostępne są jedynie 2 ALU i 2 AGU, więc o jedną jednostkę ALU mniej niż u intela... więc zastanawia mnie zasadność użycia określenia 'zdecydowanie szybszy'.
Po prawdzie to w intelach jest jeszcze jeszcze jednak jednostka odpowiadająca za komunikacje z pamięcią. Trzeba także brać pod uwagę że macro-ops w intelach pozwalają wykonać dwie instrukcji w jednym ALU.
'W AMD dekoder dla jednego wątku jest cały dostępny, więc również może wykonać 4 instrukcje w takcie. Jednak gdy mamy 2 wątki, to te 4 instrukcje może wykonać jeden moduł.'
W pierwszym zdaniu twierdzisz dla jednego wątku można wykonać 4 instrukcje. W drugim że dwa watki mogą wykonać 4 instrukcje. Po co wiec drugi moduł skoro jeden moduł wykonuje 4 instrukcje a dwa moduły ... wykonują 4 instrukcje
A wracając do wydajności buldozera w jednym wątku. Porównajmy wiec ten pojedynczy watek buldozera 2ALU+ 2 AGU z pojedynczym wątkiem phenoma II
3 ALU + 3 AGU. Jaka jest dysproporcja w jednym wątku miedzy phenom II a core ix wiadomo.
Wychodzi na to ze buldozer ma słabszy pojedynczy wątek od phenoma II . Być może jakieś optymalizacje pozwolą podnieść wydajność pojedynczego wątku buldozera do poziomu zbliżonego do phenoma II. Być może ... Jednak przy obecnym stanie wiedzy nt architektury buldozera nie ma co liczyć na to że moc pojedynczego wątku będzie choć zbliżona do obecnych CPU intela.
Z kolei z testu preview sandy bridge wychodzi ze tam moc pojedynczego wątku jeszcze wzrosła.
Pewnie każdy widział kiedyś gdzieś w internecie zapytania w stylu 'gdzie mogę ściągnąć ram' czy też 'megaherce'.
Teraz ludzie będą pytać o to gdzie ściągnąć megabajty cache i nikogo nie będzie to bawić
[RS]Intel_all_models_unlocker_without_key
tak to będzie wyglądało
albo
[MU]AMD_nVidia_Intel_unlocker_core_300%_power_premium
o ludzie...
Samsung Apps
Apple Store
Intel Apps/Market ?
i co dalej...
Hehe ale zawsze będzie można spiracić procesor
Dalej sytuacji nie rozumiesz więc jużtłumaczę.
W bulldozerze masz 4 drożny dekoder na moduł. W Core 4 drożny dekoder na rdzeń. W bulldorzerze masz dla jednego wątku 4 instrukcje w cyklu, dla core również 4 instrukcje. Gdy dojdzie drugi wątek na moduł nadal przypadają 4 instrukcje, ale dla 2 wątków, a w Core na 2 wątki również masz nadal 4 instrukcje na cykl.
Idąc dalej. Bulldozer ma dwa moduły po 2ALU i 2AGU. Jeden wątek może działać tylko na jednym module INT, ale ma w tym czasie pełny dostęp do całęgo FPU i dekodera. Jednak gdy dochodzi drugi wątek, ma on dostęp do swojego własnego modułu INT (2 ALU i 2 AGU). U intela 1 wątek ma 3ALU i 2AGU, ale dwa wątki również mają 3 ALU i 2AGU.
Kolejny błąd - Twoje porównanie bulldozera do phenoma II. W phenomie masz 3ALU/AGU - jednostki kompleksowe(złożone) które mogą wykonać jedną LUB drugą operację i trójdrożny dekoder instrukcji. Czyli w porównaniu do bulldozera dla jednego wątku sytuacja wygląda tak.
Bulldozer
4 drożny dekoder, 2ALU, 2AGU + 2x128bit(256bit) FPU.
K10
3 drożny dekoder 3ALU/AGU + 128bit FPU.
jeszcze na koniec Sandy bridge
4drożny dekoder, 3ALU, 2AGU + 256bit FPU.
Więc no niestety, ale Dla mnie to tutaj najbardziej odstaje właśnie K10, a bulldozer ma jedną jednostkę ALU mniej od Sandy Bridge, więc wyprzedzić intela,to zapewne nie wyprzedzi, ale K10 przegoni. Jednak gdy moduł zostanie obciążony dwoma wątkami, to są spore szanse, że Sandy bridge zostanie przegoniony.
'W pierwszym zdaniu twierdzisz dla jednego wątku można wykonać 4 instrukcje. W drugim że dwa watki mogą wykonać 4 instrukcje'
Tak twierdzę - i u intela jest taka sama sytuacja dokładnie. Dla jednego wątku bulldozer może przeznaczyć swoje wszystkie jednostki poza drugim modułem INT.
pps. macro-ops nie daje aż tak wiele. Wystarczy zrobić test core2 na 32 i 64bitowym systemie - w core2 macro-ops działało tylko w środowisku 32bitowym, a dopiero w nehalemie doszła obsługa w 64bitowym. Różnica byłą taka, że Athlony x2 traciły do core2 około 2-5% mniej po przejściu w środowisko 64bitowe.
Moim zdaniem to phenom II ma bardziej wydajną bo uniwersalna jednostkę niż rdzeń buldozera. Phenom II ma trzydroży dekoder i jest w stanie wykonać trzy dowolne instrukcje. Buldozer ma czterodrożny dekoder i jest w stanie wykonać 4 instrukcje - ale tylko pod warunkiem że dwie z nich będą odnosiły się do ALU a dwie do AGU ( mowa o jednym wątku). Pytanie jak często kod x86 będzie w pełni wykorzystywał możliwości rdzenia buldozera, jak częste będą sytuacje gdy część jednostek buldozera będzie niewykorzystana? Bo że takie sytuacje będą miały miejsce to nie ma wątpliwości. Pomysł by wykorzystać aktualnie niewykorzystane jednostki jest ideą intelowskiego HT. A na podstawie tego jaki przyrost mocy daje HT można przypuszczać że całkiem sporo tych jednostek jest niewykorzystywanych.
Zgadzam się natomiast z tym ze buldozer w aplikacjach wielowątkowych może okazać się nawet nieznacznie szybszy od sandy bridge ( oczym w swoim czasei pisałem na innym portalu którego nazwy nie można wymawiać
Natomiast w sytuacji aplikacji jednowątkowej intele będa nadal zdecydowanie szybsze.
Kolejna sprawa, to FPU. Bulldozer dla jednego wątku ma 256bitowe FPU (lub 2x128Bit), a phenom posiada tylko 128bitowe FPU. Nie same jednostki int stanowią o wydajności, więc tutaj kolejna duża przewaga bulldozera. Inna sprawa, że samo AMD już potwierdziło wyższą wydajność pojedynczego wątku w stosunku do phenoma i nie ma podstaw do tego, aby im nie wierzyć. W najgorszej sytuacji bulldozer w specyficznych zastosowaniach w których teraz phenom wypada najlepiej (dogania core) będzie oferował podobną wydajność, zaś tam gdzie phenom odstaje od core, bulldozer będzie sporo szybszy od phenoma.
Pf...
Dalej sytuacji nie rozumiesz więc jużtłumaczę.
W bulldozerze masz 4 drożny dekoder na moduł. W Core 4 drożny dekoder na rdzeń. W bulldorzerze masz dla jednego wątku 4 instrukcje w cyklu, dla core również 4 instrukcje. Gdy dojdzie drugi wątek na moduł nadal przypadają 4 instrukcje, ale dla 2 wątków, a w Core na 2 wątki również masz nadal 4 instrukcje na cykl.
Idąc dalej. Bulldozer ma dwa moduły po 2ALU i 2AGU. Jeden wątek może działać tylko na jednym module INT, ale ma w tym czasie pełny dostęp do całęgo FPU i dekodera. Jednak gdy dochodzi drugi wątek, ma on dostęp do swojego własnego modułu INT (2 ALU i 2 AGU). U intela 1 wątek ma 3ALU i 2AGU, ale dwa wątki również mają 3 ALU i 2AGU.
Kolejny błąd - Twoje porównanie bulldozera do phenoma II. W phenomie masz 3ALU/AGU - jednostki kompleksowe(złożone) które mogą wykonać jedną LUB drugą operację i trójdrożny dekoder instrukcji. Czyli w porównaniu do bulldozera dla jednego wątku sytuacja wygląda tak.
Bulldozer
4 drożny dekoder, 2ALU, 2AGU + 2x128bit(256bit) FPU.
K10
3 drożny dekoder 3ALU/AGU + 128bit FPU.
jeszcze na koniec Sandy bridge
4drożny dekoder, 3ALU, 2AGU + 256bit FPU.
Więc no niestety, ale Dla mnie to tutaj najbardziej odstaje właśnie K10, a bulldozer ma jedną jednostkę ALU mniej od Sandy Bridge, więc wyprzedzić intela,to zapewne nie wyprzedzi, ale K10 przegoni. Jednak gdy moduł zostanie obciążony dwoma wątkami, to są spore szanse, że Sandy bridge zostanie przegoniony.
'W pierwszym zdaniu twierdzisz dla jednego wątku można wykonać 4 instrukcje. W drugim że dwa watki mogą wykonać 4 instrukcje'
Tak twierdzę - i u intela jest taka sama sytuacja dokładnie. Dla jednego wątku bulldozer może przeznaczyć swoje wszystkie jednostki poza drugim modułem INT.
pps. macro-ops nie daje aż tak wiele. Wystarczy zrobić test core2 na 32 i 64bitowym systemie - w core2 macro-ops działało tylko w środowisku 32bitowym, a dopiero w nehalemie doszła obsługa w 64bitowym. Różnica byłą taka, że Athlony x2 traciły do core2 około 2-5% mniej po przejściu w środowisko 64bitowe.
Moim zdaniem to phenom II ma bardziej wydajną bo uniwersalna jednostkę niż rdzeń buldozera. Phenom II ma trzydroży dekoder i jest w stanie wykonać trzy dowolne instrukcje. Buldozer ma czterodrożny dekoder i jest w stanie wykonać 4 instrukcje - ale tylko pod warunkiem że dwie z nich będą odnosiły się do ALU a dwie do AGU ( mowa o jednym wątku). Pytanie jak często kod x86 będzie w pełni wykorzystywał możliwości rdzenia buldozera, jak częste będą sytuacje gdy część jednostek buldozera będzie niewykorzystana? Bo że takie sytuacje będą miały miejsce to nie ma wątpliwości. Pomysł by wykorzystać aktualnie niewykorzystane jednostki jest ideą intelowskiego HT. A na podstawie tego jaki przyrost mocy daje HT można przypuszczać że całkiem sporo tych jednostek jest niewykorzystywanych.
Zgadzam się natomiast z tym ze buldozer w aplikacjach wielowątkowych może okazać się nawet nieznacznie szybszy od sandy bridge ( oczym w swoim czasei pisałem na innym portalu którego nazwy nie można wymawiać
Natomiast w sytuacji aplikacji jednowątkowej intele będa nadal zdecydowanie szybsze.
Ktoś was zmusza do zakupu ?
I co jeszcze?
W AMD dekoder dla jednego wątku jest cały dostępny, więc również może wykonać 4 instrukcje w takcie. Jednak gdy mamy 2 wątki, to te 4 instrukcje może wykonać jeden moduł. U Intel sytuacja podobna - 1 wątek - 4 instrukcje, 2 wątki również 4 instrukcje. Rożnica jest tylko taka, że Intel ma 3 ALU i 2 AGU, a AMD 4ALU i 4AGU (na cały moduł dla 2 wątków) jednak gdy moduł obsługuje jeden wątek dostępne są jedynie 2 ALU i 2 AGU, więc o jedną jednostkę ALU mniej niż u intela... więc zastanawia mnie zasadność użycia określenia 'zdecydowanie szybszy'.
Po prawdzie to w intelach jest jeszcze jeszcze jednak jednostka odpowiadająca za komunikacje z pamięcią. Trzeba także brać pod uwagę że macro-ops w intelach pozwalają wykonać dwie instrukcji w jednym ALU.
'W AMD dekoder dla jednego wątku jest cały dostępny, więc również może wykonać 4 instrukcje w takcie. Jednak gdy mamy 2 wątki, to te 4 instrukcje może wykonać jeden moduł.'
W pierwszym zdaniu twierdzisz dla jednego wątku można wykonać 4 instrukcje. W drugim że dwa watki mogą wykonać 4 instrukcje. Po co wiec drugi moduł skoro jeden moduł wykonuje 4 instrukcje a dwa moduły ... wykonują 4 instrukcje
A wracając do wydajności buldozera w jednym wątku. Porównajmy wiec ten pojedynczy watek buldozera 2ALU+ 2 AGU z pojedynczym wątkiem phenoma II
3 ALU + 3 AGU. Jaka jest dysproporcja w jednym wątku miedzy phenom II a core ix wiadomo.
Wychodzi na to ze buldozer ma słabszy pojedynczy wątek od phenoma II . Być może jakieś optymalizacje pozwolą podnieść wydajność pojedynczego wątku buldozera do poziomu zbliżonego do phenoma II. Być może ... Jednak przy obecnym stanie wiedzy nt architektury buldozera nie ma co liczyć na to że moc pojedynczego wątku będzie choć zbliżona do obecnych CPU intela.
Z kolei z testu preview sandy bridge wychodzi ze tam moc pojedynczego wątku jeszcze wzrosła.
Dalej sytuacji nie rozumiesz więc jużtłumaczę.
W bulldozerze masz 4 drożny dekoder na moduł. W Core 4 drożny dekoder na rdzeń. W bulldorzerze masz dla jednego wątku 4 instrukcje w cyklu, dla core również 4 instrukcje. Gdy dojdzie drugi wątek na moduł nadal przypadają 4 instrukcje, ale dla 2 wątków, a w Core na 2 wątki również masz nadal 4 instrukcje na cykl.
Idąc dalej. Bulldozer ma dwa moduły po 2ALU i 2AGU. Jeden wątek może działać tylko na jednym module INT, ale ma w tym czasie pełny dostęp do całęgo FPU i dekodera. Jednak gdy dochodzi drugi wątek, ma on dostęp do swojego własnego modułu INT (2 ALU i 2 AGU). U intela 1 wątek ma 3ALU i 2AGU, ale dwa wątki również mają 3 ALU i 2AGU.
Kolejny błąd - Twoje porównanie bulldozera do phenoma II. W phenomie masz 3ALU/AGU - jednostki kompleksowe(złożone) które mogą wykonać jedną LUB drugą operację i trójdrożny dekoder instrukcji. Czyli w porównaniu do bulldozera dla jednego wątku sytuacja wygląda tak.
Bulldozer
4 drożny dekoder, 2ALU, 2AGU + 2x128bit(256bit) FPU.
K10
3 drożny dekoder 3ALU/AGU + 128bit FPU.
jeszcze na koniec Sandy bridge
4drożny dekoder, 3ALU, 2AGU + 256bit FPU.
Więc no niestety, ale Dla mnie to tutaj najbardziej odstaje właśnie K10, a bulldozer ma jedną jednostkę ALU mniej od Sandy Bridge, więc wyprzedzić intela,to zapewne nie wyprzedzi, ale K10 przegoni. Jednak gdy moduł zostanie obciążony dwoma wątkami, to są spore szanse, że Sandy bridge zostanie przegoniony.
'W pierwszym zdaniu twierdzisz dla jednego wątku można wykonać 4 instrukcje. W drugim że dwa watki mogą wykonać 4 instrukcje'
Tak twierdzę - i u intela jest taka sama sytuacja dokładnie. Dla jednego wątku bulldozer może przeznaczyć swoje wszystkie jednostki poza drugim modułem INT.
pps. macro-ops nie daje aż tak wiele. Wystarczy zrobić test core2 na 32 i 64bitowym systemie - w core2 macro-ops działało tylko w środowisku 32bitowym, a dopiero w nehalemie doszła obsługa w 64bitowym. Różnica byłą taka, że Athlony x2 traciły do core2 około 2-5% mniej po przejściu w środowisko 64bitowe.
Ja też. To skandal, że nie chcą dawać za darmo szybszego procesora osobom które kupiły wolniejszy procesor. Mój następny procesor to będzie VIA Cyrix!
AMD - 2 core każde zdolne wykonać 2 instrukcje w takcie
INTEL 1 core zdolny wykonać 4 instrukcje w takcie
W aplikacjach wielowątkowych wydajność podobna. W aplikacjach jednowątkowych intel zdecydowanie szybszy
I co jeszcze?
W AMD dekoder dla jednego wątku jest cały dostępny, więc również może wykonać 4 instrukcje w takcie. Jednak gdy mamy 2 wątki, to te 4 instrukcje może wykonać jeden moduł. U Intel sytuacja podobna - 1 wątek - 4 instrukcje, 2 wątki również 4 instrukcje. Rożnica jest tylko taka, że Intel ma 3 ALU i 2 AGU, a AMD 4ALU i 4AGU (na cały moduł dla 2 wątków) jednak gdy moduł obsługuje jeden wątek dostępne są jedynie 2 ALU i 2 AGU, więc o jedną jednostkę ALU mniej niż u intela... więc zastanawia mnie zasadność użycia określenia 'zdecydowanie szybszy'.
Po prawdzie to w intelach jest jeszcze jeszcze jednak jednostka odpowiadająca za komunikacje z pamięcią. Trzeba także brać pod uwagę że macro-ops w intelach pozwalają wykonać dwie instrukcji w jednym ALU.
'W AMD dekoder dla jednego wątku jest cały dostępny, więc również może wykonać 4 instrukcje w takcie. Jednak gdy mamy 2 wątki, to te 4 instrukcje może wykonać jeden moduł.'
W pierwszym zdaniu twierdzisz dla jednego wątku można wykonać 4 instrukcje. W drugim że dwa watki mogą wykonać 4 instrukcje. Po co wiec drugi moduł skoro jeden moduł wykonuje 4 instrukcje a dwa moduły ... wykonują 4 instrukcje
A wracając do wydajności buldozera w jednym wątku. Porównajmy wiec ten pojedynczy watek buldozera 2ALU+ 2 AGU z pojedynczym wątkiem phenoma II
3 ALU + 3 AGU. Jaka jest dysproporcja w jednym wątku miedzy phenom II a core ix wiadomo.
Wychodzi na to ze buldozer ma słabszy pojedynczy wątek od phenoma II . Być może jakieś optymalizacje pozwolą podnieść wydajność pojedynczego wątku buldozera do poziomu zbliżonego do phenoma II. Być może ... Jednak przy obecnym stanie wiedzy nt architektury buldozera nie ma co liczyć na to że moc pojedynczego wątku będzie choć zbliżona do obecnych CPU intela.
Z kolei z testu preview sandy bridge wychodzi ze tam moc pojedynczego wątku jeszcze wzrosła.
Teraz ludzie będą pytać o to gdzie ściągnąć megabajty cache i nikogo nie będzie to bawić