@pawełpclab - tylko zważ, że pojedynczy rdzeń K10 NIE potrafii przetwarzać DWÓCH wątków naraz i jest to porównanie 1 wątek na K10.5 kontra 2 na BD - więc niby co za porównanie? No właśnie, żadne. Na AMDZone było teoretycznie 2 wątki - 2 jajka PhII kontra 1 moduł BD i źle nie wypadło. Jednowątkowe aplikacje? BD jest szybszy. Wielowątkowe aplikacje? BD jest nadal szybszy (biorąc pod uwagę że obecnie moduł zastępuje rdzeń czyli 1 moduł BD> 1 rdzen PhII). Zgoda czy nie?
@pawełpclab - tylko zważ, że pojedynczy rdzeń K10 NIE potrafii przetwarzać DWÓCH wątków naraz i jest to porównanie 1 wątek na K10.5 kontra 2 na BD - więc niby co za porównanie? No właśnie, żadne. Jednowątkowe aplikacje? BD jest szybszy. Wielowątkowe aplikacje? BD jest nadal szybszy. Zgoda czy nie?
Właśnie jest to porównanie wydajnosci bd/k10.5 gdy dwa watki sa wykonywane na module bd a każdy z pojedynczych watków jest wykonywany na jednym, rdzeniu k10.5
Spójrzmy jeszcze raz na to
Retirement execution -> BD/K10.5 -> 4/3=133% single thread 2/3=66% with dual thread (per cycle)
Dla dwóch wątków AMD podaje 2/3 a dla jednego 4/3. Co przeczy twojej tezie z #151 W której twierdziłeś że dla dwóch wątków również będzie 4 dla buldozera.
Przy dwóch watkach buldozer ma 2!
Ja widze dwie alternatywy albo pokedynczy wątek będzie mocny wtedy przyrost wydajności w stosunku do maszyny dwuprocesorowej będzie kiepski.
Albo pojedynczy watek jest słaby wtedy przyrost wydajności będzie znaczny.
Trzeba poczekać na testy. Ciekawe kiedy się pojawią?
Ja jestem bliższy alternatywie pierwszej, jednak i tak przyrost wydajności będzie zapewne większy niż przy zastosowaniu HT. Zauważ, że intel się chwali nawet 50% wzrostem wydajności po zastosowaniu HT - jednak takie sytuacje zdarzają się niezwykle rzadko i zazwyczaj jest to 20-30%. AMD pisało o 80%, więc pewnie realnie wzrost będzie wynosił 40-50%, a wydajnośc 2 wątków będzie niższa niż wydajność 2 rdzeni K10. Co by potwierdzały wstępne informacje o 8 modułowym 16 wątkowym bulldozerze, który ma być 50% szybszy od 12 rdzeniowego K10.5.
Jeśli założymy 50% przyrost wydajności to maxymalna moc pojedynczego watku BD powinnna wynosić 4/1.5 = 2.66
Dla k10.5 teoretyczna jest 3.
Różnica nie jets wielka i to może załatwić skuteczniejsza implementacja. Jednak nadal będzie odowiazywać albo szybki watek albo duży przyrost wydajności
@pawełpclab - tylko zważ, że pojedynczy rdzeń K10 NIE potrafii przetwarzać DWÓCH wątków naraz i jest to porównanie 1 wątek na K10.5 kontra 2 na BD - więc niby co za porównanie? No właśnie, żadne. Jednowątkowe aplikacje? BD jest szybszy. Wielowątkowe aplikacje? BD jest nadal szybszy. Zgoda czy nie?
Właśnie jest to porównanie wydajnosci bd/k10.5 gdy dwa watki sa wykonywane na module bd a każdy z pojedynczych watków jest wykonywany na jednym, rdzeniu k10.5
Spójrzmy jeszcze raz na to
Retirement execution -> BD/K10.5 -> 4/3=133% single thread 2/3=66% with dual thread (per cycle)
Dla dwóch wątków AMD podaje 2/3 a dla jednego 4/3. Co przeczy twojej tezie z #151 W której twierdziłeś że dla dwóch wątków również będzie 4 dla buldozera.
Przy dwóch watkach buldozer ma 2!
to nie AMD podaje, tylko analiza informacji przez użytkownika forum AMD zone. te 2 operacje przy 2 wątach są wzięte po prostu z tego założenia, że dekoder przetwarza 4 instrukcje, a ma do nakarmienia 2 wątki - podobnie jest w core i7.
@up - jeszcze raz przeczytaj co napisałeś w 150, a co ja w 151 i napisz jak to ma się do tego co piszesz tutaj. Przypomnę:
'dlatego ze schedulery nie są w stanie przydzielić do wykonania 4 instrukcji w takcie.'
Są, to że tego nie są w stanie zrobić ZAWSZE to całkiem inna sprawa!
'Pytanie jak często kod x86 będzie w pełni wykorzystywał możliwości rdzenia buldozera, jak częste będą sytuacje gdy część jednostek buldozera będzie niewykorzystana? Bo że takie sytuacje będą miały miejsce to nie ma wątpliwości. Pomysł by wykorzystać aktualnie niewykorzystane jednostki jest ideą intelowskiego HT. A na podstawie tego jaki przyrost mocy daje HT można przypuszczać że całkiem sporo tych jednostek jest niewykorzystywanych. '
I od tamtego czasu konsekwentnie i z wielkim zaangażowaniem przekonuje Was do tego że dwa rdzenie są w buldozerze dlatego że sytuacje gdy uda sie wykorzystać wszystkie jednostki są rzadkie.
Fakt to co cytowałem nie było skierowane do Ciebie. Było to w odpowiedzi na post
Amitoza. Ale co miałem zrobić wydać manifest czy jak?
'Pytanie jak często kod x86 będzie w pełni wykorzystywał możliwości rdzenia buldozera, jak częste będą sytuacje gdy część jednostek buldozera będzie niewykorzystana? Bo że takie sytuacje będą miały miejsce to nie ma wątpliwości. Pomysł by wykorzystać aktualnie niewykorzystane jednostki jest ideą intelowskiego HT. A na podstawie tego jaki przyrost mocy daje HT można przypuszczać że całkiem sporo tych jednostek jest niewykorzystywanych. '
I od tamtego czasu konsekwentnie i z wielkim zaangażowaniem przekonuje Was do tego że dwa rdzenie są w buldozerze dlatego że sytuacje gdy uda sie wykorzystać wszystkie jednostki są rzadkie.
Fakt to co cytowałem nie było skierowane do Ciebie. Było to w odpowiedzi na post
Amitoza. Ale co miałem zrobić wydać manifest czy jak?
Tylko że bierzesz pod uwagę takie założenie, że dekoder i wszystkie jednostki w K10.5 są wykorzystywane w 100% - a nie są. Z tego też powodu Twoje założenie na starcie ma duży defekt. 'luzy' są zawsze, tyle, że bulldozer czy core je wykorzystają, a phenom już nie. Kolejna sprawa, że dekoder bulldozera, nawet jak jest wykorzystywany powiedźmy (czysto hipotetycznie) w 75% dla tego jednego wątku, to i tak przetworzy więcej instrukcji niż dekoder w K10 na podobnym poziomie wykorzystania.
'Pytanie jak często kod x86 będzie w pełni wykorzystywał możliwości rdzenia buldozera, jak częste będą sytuacje gdy część jednostek buldozera będzie niewykorzystana? Bo że takie sytuacje będą miały miejsce to nie ma wątpliwości. Pomysł by wykorzystać aktualnie niewykorzystane jednostki jest ideą intelowskiego HT. A na podstawie tego jaki przyrost mocy daje HT można przypuszczać że całkiem sporo tych jednostek jest niewykorzystywanych. '
I od tamtego czasu konsekwentnie i z wielkim zaangażowaniem przekonuje Was do tego że dwa rdzenie są w buldozerze dlatego że sytuacje gdy uda sie wykorzystać wszystkie jednostki są rzadkie.
Fakt to co cytowałem nie było skierowane do Ciebie. Było to w odpowiedzi na post
Amitoza. Ale co miałem zrobić wydać manifest czy jak?
Tylko że bierzesz pod uwagę takie założenie, że dekoder i wszystkie jednostki w K10.5 są wykorzystywane w 100% - a nie są. Z tego też powodu Twoje założenie na starcie ma duży defekt. 'luzy' są zawsze, tyle, że bulldozer czy core je wykorzystają, a phenom już nie. Kolejna sprawa, że dekoder bulldozera, nawet jak jest wykorzystywany powiedźmy (czysto hipotetycznie) w 75% dla tego jednego wątku, to i tak przetworzy więcej instrukcji niż dekoder w K10 na podobnym poziomie wykorzystania.
Wcale nie zakładam ze schedulery k10.5 działają sprawniej od bd. Mam nadzieję że w buldozerze będą one efektywniejsze. Czyli liczę na lepszą implementacje o której kilkakrotnie wspominałem. Jednak jestem również świadom że ta skutecznosć schedulerów buldozera nie moze być za bardzo zbliżona do 100% bo wtedy drugi rdzeń nie miałby sensu. Skoro ten drugi rdzeń kosztuje 12% powierzchni to opłaca się go dodawać gdy średnia skuteczność schedulera będzie mniejsza niz 100-12=88%. Czyli skuteczność schedulera mieści się w przedziale <50%;88%)
Teoretyczna wydajność bd to 1.33 wydajnosci k10.5.
1.33*0.88 = 1.17 tyle wynosi ograniczenie górne mocy pojedynczego wątku bd jeśli pomysł z dwoma rdzeniami ma mieć sens.
Zakres mocy pojedynczego watku buldozera będzie w przedziale <66%;117%) mocy pojedynczego watku k10.5
Dziwne są te krzyki oburzenia, choć ... właściwie nie, niektórzy chcieliby, żeby im za darmo wszystko dać. Sami natomiast gdyby tylko, zamienili się miejscami z właścicielami np. Intela, to w nie mniejszym stopniu chcieliby osiągnąć jak najwyższe zyski.
Możliwość software'owego upgrade'u jest zdecydowanie lepszym rozwiązaniem dla ilości wolnego czasu Kowalskiego niż zakup nowego proca.
Właśnie jest to porównanie wydajnosci bd/k10.5 gdy dwa watki sa wykonywane na module bd a każdy z pojedynczych watków jest wykonywany na jednym, rdzeniu k10.5
Spójrzmy jeszcze raz na to
Retirement execution -> BD/K10.5 -> 4/3=133% single thread 2/3=66% with dual thread (per cycle)
Dla dwóch wątków AMD podaje 2/3 a dla jednego 4/3. Co przeczy twojej tezie z #151 W której twierdziłeś że dla dwóch wątków również będzie 4 dla buldozera.
Przy dwóch watkach buldozer ma 2!
Ja widze dwie alternatywy albo pokedynczy wątek będzie mocny wtedy przyrost wydajności w stosunku do maszyny dwuprocesorowej będzie kiepski.
Albo pojedynczy watek jest słaby wtedy przyrost wydajności będzie znaczny.
Trzeba poczekać na testy. Ciekawe kiedy się pojawią?
Ja jestem bliższy alternatywie pierwszej, jednak i tak przyrost wydajności będzie zapewne większy niż przy zastosowaniu HT. Zauważ, że intel się chwali nawet 50% wzrostem wydajności po zastosowaniu HT - jednak takie sytuacje zdarzają się niezwykle rzadko i zazwyczaj jest to 20-30%. AMD pisało o 80%, więc pewnie realnie wzrost będzie wynosił 40-50%, a wydajnośc 2 wątków będzie niższa niż wydajność 2 rdzeni K10. Co by potwierdzały wstępne informacje o 8 modułowym 16 wątkowym bulldozerze, który ma być 50% szybszy od 12 rdzeniowego K10.5.
Jeśli założymy 50% przyrost wydajności to maxymalna moc pojedynczego watku BD powinnna wynosić 4/1.5 = 2.66
Dla k10.5 teoretyczna jest 3.
Różnica nie jets wielka i to może załatwić skuteczniejsza implementacja. Jednak nadal będzie odowiazywać albo szybki watek albo duży przyrost wydajności
Właśnie jest to porównanie wydajnosci bd/k10.5 gdy dwa watki sa wykonywane na module bd a każdy z pojedynczych watków jest wykonywany na jednym, rdzeniu k10.5
Spójrzmy jeszcze raz na to
Retirement execution -> BD/K10.5 -> 4/3=133% single thread 2/3=66% with dual thread (per cycle)
Dla dwóch wątków AMD podaje 2/3 a dla jednego 4/3. Co przeczy twojej tezie z #151 W której twierdziłeś że dla dwóch wątków również będzie 4 dla buldozera.
Przy dwóch watkach buldozer ma 2!
to nie AMD podaje, tylko analiza informacji przez użytkownika forum AMD zone. te 2 operacje przy 2 wątach są wzięte po prostu z tego założenia, że dekoder przetwarza 4 instrukcje, a ma do nakarmienia 2 wątki - podobnie jest w core i7.
'dlatego ze schedulery nie są w stanie przydzielić do wykonania 4 instrukcji w takcie.'
Są, to że tego nie są w stanie zrobić ZAWSZE to całkiem inna sprawa!
W #124 napisałem
'Pytanie jak często kod x86 będzie w pełni wykorzystywał możliwości rdzenia buldozera, jak częste będą sytuacje gdy część jednostek buldozera będzie niewykorzystana? Bo że takie sytuacje będą miały miejsce to nie ma wątpliwości. Pomysł by wykorzystać aktualnie niewykorzystane jednostki jest ideą intelowskiego HT. A na podstawie tego jaki przyrost mocy daje HT można przypuszczać że całkiem sporo tych jednostek jest niewykorzystywanych. '
I od tamtego czasu konsekwentnie i z wielkim zaangażowaniem
Fakt to co cytowałem nie było skierowane do Ciebie. Było to w odpowiedzi na post
Amitoza. Ale co miałem zrobić wydać manifest czy jak?
W #124 napisałem
'Pytanie jak często kod x86 będzie w pełni wykorzystywał możliwości rdzenia buldozera, jak częste będą sytuacje gdy część jednostek buldozera będzie niewykorzystana? Bo że takie sytuacje będą miały miejsce to nie ma wątpliwości. Pomysł by wykorzystać aktualnie niewykorzystane jednostki jest ideą intelowskiego HT. A na podstawie tego jaki przyrost mocy daje HT można przypuszczać że całkiem sporo tych jednostek jest niewykorzystywanych. '
I od tamtego czasu konsekwentnie i z wielkim zaangażowaniem
Fakt to co cytowałem nie było skierowane do Ciebie. Było to w odpowiedzi na post
Amitoza. Ale co miałem zrobić wydać manifest czy jak?
Tylko że bierzesz pod uwagę takie założenie, że dekoder i wszystkie jednostki w K10.5 są wykorzystywane w 100% - a nie są. Z tego też powodu Twoje założenie na starcie ma duży defekt. 'luzy' są zawsze, tyle, że bulldozer czy core je wykorzystają, a phenom już nie. Kolejna sprawa, że dekoder bulldozera, nawet jak jest wykorzystywany powiedźmy (czysto hipotetycznie) w 75% dla tego jednego wątku, to i tak przetworzy więcej instrukcji niż dekoder w K10 na podobnym poziomie wykorzystania.
W #124 napisałem
'Pytanie jak często kod x86 będzie w pełni wykorzystywał możliwości rdzenia buldozera, jak częste będą sytuacje gdy część jednostek buldozera będzie niewykorzystana? Bo że takie sytuacje będą miały miejsce to nie ma wątpliwości. Pomysł by wykorzystać aktualnie niewykorzystane jednostki jest ideą intelowskiego HT. A na podstawie tego jaki przyrost mocy daje HT można przypuszczać że całkiem sporo tych jednostek jest niewykorzystywanych. '
I od tamtego czasu konsekwentnie i z wielkim zaangażowaniem
Fakt to co cytowałem nie było skierowane do Ciebie. Było to w odpowiedzi na post
Amitoza. Ale co miałem zrobić wydać manifest czy jak?
Tylko że bierzesz pod uwagę takie założenie, że dekoder i wszystkie jednostki w K10.5 są wykorzystywane w 100% - a nie są. Z tego też powodu Twoje założenie na starcie ma duży defekt. 'luzy' są zawsze, tyle, że bulldozer czy core je wykorzystają, a phenom już nie. Kolejna sprawa, że dekoder bulldozera, nawet jak jest wykorzystywany powiedźmy (czysto hipotetycznie) w 75% dla tego jednego wątku, to i tak przetworzy więcej instrukcji niż dekoder w K10 na podobnym poziomie wykorzystania.
Wcale nie zakładam ze schedulery k10.5 działają sprawniej od bd. Mam nadzieję że w buldozerze będą one efektywniejsze. Czyli liczę na lepszą implementacje o której kilkakrotnie wspominałem. Jednak jestem również świadom że ta skutecznosć schedulerów buldozera nie moze być za bardzo zbliżona do 100% bo wtedy drugi rdzeń nie miałby sensu. Skoro ten drugi rdzeń kosztuje 12% powierzchni to opłaca się go dodawać gdy średnia skuteczność schedulera będzie mniejsza niz 100-12=88%. Czyli skuteczność schedulera mieści się w przedziale <50%;88%)
Teoretyczna wydajność bd to 1.33 wydajnosci k10.5.
1.33*0.88 = 1.17 tyle wynosi ograniczenie górne mocy pojedynczego wątku bd jeśli pomysł z dwoma rdzeniami ma mieć sens.
Zakres mocy pojedynczego watku buldozera będzie w przedziale <66%;117%) mocy pojedynczego watku k10.5
Możliwość software'owego upgrade'u jest zdecydowanie lepszym rozwiązaniem dla ilości wolnego czasu Kowalskiego niż zakup nowego proca.