artykuły

Intel Haswell – anatomia procesorów nadchodzącej generacji, część 2: energooszczędność, dodatkowa pamięć dla GPU, zasilanie

Haswell pod lupą, część 2.

56
24 marca 2013, 08:30 Mateusz Brzostek

Obiecaliśmy Wam dalszy ciąg opisu technicznego nadchodzących procesorów Intela z rodziny Haswell. W pierwszej części przedstawiliśmy zmiany w mikroarchitekturze rdzeni x86 i układu graficznego. W drugiej zajmiemy się fizyczną implementacją tej mikroarchitektury i usprawnieniami w produkcji, którym Haswell zawdzięcza wiele ze swoich zalet.

Spis treści

Domeny zegarowe i zasilania

Wraz z integracją kolejnych bloków funkcjonalnych w jednym kawałku krzemu trzeba coraz sprawniej zarządzać poborem energii w układzie. Mamy do czynienia nie tylko z mocą aktywną, czyli tą zużywaną na obliczenia: sporo jej kosztuje samo podtrzymanie działania obwodów. Zasilanie i rozprowadzanie sygnału zegarowego do nieużywanych bloków potrafi przejeść znaczną część budżetu energetycznego układu. Dlatego powinien on móc z jak największą dokładnością sterować zasilaniem i taktowaniem każdej części. Pamiętamy, że odkąd w Clarkdale'ach zintegrowano układ graficzny, do procesora trzeba dostarczać dodatkowe napięcie do jego zasilania. W Sandy Bridge i Ivy Bridge zintegrowane GPU przeniesiono na ten sam kawałek krzemu, w którym zawarty jest procesor, ale pozostało ono w oddzielnej strefie zasilania i taktowania.

W procesorach Haswell wydzielono kolejną strefę zasilania i taktowania.

Rdzenie procesora i magistrala pierścieniowa z pamięcią podręczną trzeciego poziomu, które w Sandy Bridge i Ivy Bridge pracowały zawsze z tą samą częstotliwością i tym samym napięciem, teraz zostaną rozdzielone. Częstotliwość taktowania procesora będzie można obniżyć bez spowalniania pierścienia i L3. To oczywiście ma służyć oszczędzaniu energii. Wyobraźmy sobie sytuację, gdy rdzenie x86 nie są zbyt zajęte, a GPU potrzebuje wysokiej przepustowości magistrali pierścieniowej i pamięci podręcznej. W Ivy Bridge cała strefa rdzeni i L3 pracowała wtedy z najszybszym taktowaniem (>3 GHz), a rdzenie x86 próbowały oszczędzić nieco prądu, wykonując instrukcję HALT. W Haswellu rdzenie mogą przejść do najniższego P-stanu albo całkiem się wyłączyć, a magistrala pierścieniowa wciąż będzie pracować.

Wiele szczegółów jeszcze jest tajemnicą: nie wiemy na przykład, czy taktowanie oraz napięcie pierścienia i L3 będzie można ręcznie regulować w BIOS-ie albo czy te częstotliwości są zupełnie niezależne (czy pierścień może pracować wolniej niż rdzenie x86). Można się domyślać, że maksymalne taktowanie tej części procesora pozostanie takie samo jak maksymalne taktowanie rdzeni x86 – w końcu te drugie potrzebują szybkiej magistrali, dostarczającej im dane w tempie, w jakim je przerabiają.

Po zeszłorocznej konferencji IDF spekulowaliśmy, że ta zmiana może znacznie ułatwić podkręcanie. Jeśli rzeczywiście da się podnieść częstotliwość taktowania rdzeni bez przyspieszania pierścienia i L3, to być może uda się osiągnąć znacznie większą szybkość zegarów niż w Ivy Bridge (pamięć L3 jest mniej podatna na przyspieszanie od rdzeni x86). Wciąż nie wiemy, czy będzie taka możliwość. Tak czy inaczej, podkręcacze dostaną do dyspozycji co najmniej jedno przydatne ustawienie: mnożniki BCLK znane z platformy LGA2011. To znaczy, że będzie można przyspieszyć procesor i magistralę pierścieniową o 25%, 50% lub 67% bez zmiany mnożnika procesora (przynajmniej w najwyższych modelach – mnożniki BCLK będą prawdopodobnie zablokowane w seriach Core i5 i Core i3).

Dodatkowa strefa korzystająca z innego napięcia wymaga zastosowania bardziej zaawansowanego układu zasilania procesora. Spójrzmy zatem, jak jest zasilany Ivy Bridge, na przykładzie płyty ASRock Z77 Extreme 4:

(diagram w wersji hard rock)

Zasilacz komputera podaje płycie głównej prąd stały o napięciu 12 V. Na płycie odbywa się dalsza konwersja napięć. Zasilacz impulsowy (tu czterofazowy, zaznaczony na czerwono) wytwarza napięcie VCORE do zasilania rdzeni procesora. Drugi zasilacz impulsowy (tu jednofazowy, zaznaczony na żółto) wytwarza napięcie VGPU do zasilania wbudowanego w procesor układu graficznego. Trzeci zasilacz impulsowy (tu jednofazowy, zaznaczony na zielono) wytwarza napięcie VSA dla system agenta. Inne, prostsze układy dostarczają dodatkowych napięć do sterowania łączami PCI-E i DMI oraz magistralą pamięci i do zasilania generatorów sygnału zegarowego w procesorze. 

Gdybyśmy chcieli dodać tu kolejną domenę zasilania, konieczny byłby jeszcze jeden zasilacz impulsowy; trzeba by też ulepszyć kontroler tych zasilaczy. Na zaawansowanej płycie desktopowej bez problemu by się to zmieściło, ale w laptopach czy najtańszych płytach ATX oznaczałoby to dodatkowe koszty (większa powierzchnia laminatu, bardziej skomplikowane ścieżki, więcej komponentów). O zmieszczeniu dalszych zasilaczy impulsowych na płycie ITX lepiej w ogóle nie mówić – to konstrukcyjny (i cenowy) koszmar.

Dlatego część funkcjonalności tradycyjnie przeniesiono na krzem, a ten zapakowano wraz z jądrem procesora w jedną obudowę:

(diagram w wersji hard rock)

Na platformie LGA1150 na płycie jest tylko jeden zasilacz impulsowy, obniżający napięcie z 12 V do poniżej 2 V. To trafia do procesora, gdzie ISVR (Integrated Silicon Voltage Regulator – regulator napięcia zintegrowany w krzemie) konwertuje je na kilka niższych napięć potrzebnych poszczególnym blokom funkcjonalnym układu. Na przedstawionym diagramie wykorzystaliśmy kilka rozsądnych (ale wciąż niepotwierdzonych) założeń. Logicznie byłoby przyjąć, że płyta główna wytwarza nie żadne pośrednie napięcie, ale najwyższe z tych potrzebnych w procesorze (VCORE albo VRING). W prototypowym czipie Intela z zasilaczem impulsowym w krzemie konwersja 12 V → 2,2 V odbywa się na płycie, a 2,2 V → VCORE – w krzemie; ale to nie jest najfortunniejsze rozwiązanie, bo dwa zasilacze impulsowe jeden za drugim mają mniejszą sprawność niż jeden. Poza tym sterowanie napięciem zasilacza impulsowego na płycie praktycznie nic nie kosztuje – odpowiedni kontroler i tak tam jest. Przypuszczamy, że tylko napięcia do zasilania mniejszych bloków (GPU, system agent, generatory zegara) będą wytwarzane w krzemie. Nie wiadomo też, czy ISVR jest oddzielnym kawałkiem krzemu w obudowie procesora, czy jest zintegrowany w tym samym jądrze. ISVR wystarczający do zasilenia GPU i system agenta miałby stosunkowo małą powierzchnię i zmieściłby się w jądrze procesora. Z drugiej strony wbudowanie mikroskopijnych cewek i kondensatorów (konieczne elementy zasilacza impulsowego) w krzem wymaga dodatkowych kroków w procesie fabrykacji, co by nieproporcjonalnie powiększyło koszt produkcji procesora.

Co to oznacza dla pecetowców?

Prawdopodobnie niewiele:

  1. Płyta główna i tak musi mieć zasilacz impulsowy dla procesora i pozostanie on elementem istotnie wpływającym na możliwości podkręcania oraz ilość energii pobieranej przez całą platformę.
  2. Wydzielanie ciepła przez procesor nie zwiększy się znacząco, bo lwia część strat na konwersji jest przekształcana w ciepło poza nim, na płycie głównej.
  3. Zasilacz impulsowy na płycie z całą pewnością będzie programowalny, a ISVR też prawdopodobnie będzie się dało sterować – płyty główne dla entuzjastów powinny w dalszym ciągu mieć zaawansowane możliwości sterowania zasilaniem.
  4. Usunięcie kilku zasilaczy impulsowych z płyty ATX oszczędza niewielką część powierzchni laminatu; oszczędność na komponentach też jest niewielka na tle kosztu całej płyty.

Za to im mniejszy rozmiar płyty głównej i im mniejszy budżet energetyczny do wykorzystania, tym więcej powinno być korzyści:

  1. Na małych płytach głównych (ITX, laptopy, All-in-One) niepotrzebne już zasilacze impulsowe zwolnią stosunkowo dużo miejsca.
  2. Pojawi się znaczna oszczędność energii. Jeśli na płycie ATX z 90-watowym procesorem zasilacz impulsowy marnuje 1 W na „koszty stałe”, to nie jest to dużo. Przy 10-watowym procesorze w ultraprzenośnym laptopie jeden zmarnowany wat to już sporo.
  3. ISVR pracuje z bardzo wysoką częstotliwością – od kilkudziesięciu do kilkuset razy szybciej niż zasilacz impulsowy na płycie. W połączeniu z małymi cewkami, które szybko magazynują i oddają energię, pozwala to na szybsze reakcje regulatora napięcia. Procesor krócej czeka z przyspieszeniem taktowania, a po spowolnieniu go szybciej spada napięcie, i znów oszczędza się energię. Szybciej można włączyć stan turbo, wykonać obliczenia i wrócić do stanu oszczędzania energii.
Strona:
HashiZobacz profil
Poziom ostrzeżenia: 0%
Hashi2013.03.24, 08:51
-6#1
W procesorach Sandy Bridge i Ivy Bridge Intela GPU jest podłączone magistralą pierścieniową do pamięci podręcznej L3 i kontrolera pamięci.

Dokładnie tak samo RSX komunikuje się z XDR (poprzez magistrale pierścieniową EIB). Pomijając L2 i cache dla GPU, XDR w uproszczeniu to nic innego jak L3 (taktowanie takie samo jak CPU, praktycznie zerowe latency i taka sama przepustowość jak rdzenie).
Samo połączenie GPU i pamięci na oddzielnej płytce w Haswell bardzo przypomina sposób w jaki w PSVITA podłączono DRAM do GPU (położono 128MB DRAM na kości GPU co dało prawdopodobnie 12.8GB/s @2x512bit połączenie face-to-face znane jeszcze z PSP). Całe innowacje Intela.
Nie wiem czy to podłączenie będzie w samym krzemie czy ten eDRAM połozą na rdzeniu - tego artykuł nie wyjaśnia.
ghetto.pimpZobacz profil
Poziom ostrzeżenia: 0%
ghetto.pimp2013.03.24, 08:51
10#2
Typowy x86 zwalnia, wydaje się że nawet następna generacja konsol nie pomoże. Choć progress pewnie jest możliwy to okazuje się nieopłacalny, procki na PC mogą aż za dużo w stosunku do potrzeb, widoczne jest kierowanie się do mobilnych rozwiązań. Wszystko skupia się powoli na mobilnym rynku...
Bany_krkZobacz profil
Poziom ostrzeżenia: 0%
Bany_krk2013.03.24, 08:54
polecam też artykuł dla nieco bardziej zaawansowanych czytelników:
http://www.realworldtech.com/haswell-cpu/
@ghetto.pimp x86 w zasadzie dobiło do ściany jeśli chodzi o wydajność/MHz, teraz tylko wydajność/wat daje się nieco poprawiać. Bez zmiany architektury PC raczej szybsze już nie będą. Intel musiałby usiąść nad x86 i zredefiniować ją, tzn przede wszystkim w końcu odciąć się od dekodowania CISC->RISC. W takim kierunku dałoby się jeszcze wydobyć około 50% więcej mocy/MHz/wątek, przykładem architektura SPARC, gdzie czysto RISCowe procesory są właśnie o około 50% wydajniejsze od x86 na MHz.
arvalZobacz profil
Poziom ostrzeżenia: 0%
arval2013.03.24, 09:01
'S0i3 to techniczne zaplecze funkcji „connected standby”, która obiecuje oszczędność energii typową dla stanu uśpienia połączoną z nieprzerwanym funkcjonowaniem urządzenia – przenośny komputer czy tablet będzie mógł spędzić w tym stanie wiele dni, periodycznie wybudzając się na krótkie okresy aktywności, w których programy będą mogły połączyć się z siecią (i na przykład pobrać pocztę). Poprawne działanie connected standby wymaga odpowiednio przygotowanych aplikacji, systemu operacyjnego'


I to jest dla mnie najciekawsze. Implementacja mechanizmu 'connected standby' oraz dodatkowych trybów S0i któe zostały dodane w Windows 8. To główny powód dla którego tablety z CloverTrail działają tak długo na baterii. Współpraca sysemu oraz procesora.

Warto jednak zaznaczyć że tylko i wyłącznie aplikacje 'metro' mogą rejestrować się do pracy w trybie 'connected standby'. W tym celu programista tworzy w aplikacji metro specjalną usługę i to ona pracuje w tym trybie a nie właściwa aplikacja. Dzięki czemu całość może pracować przy minimalnym zużyciu energii. Cyklem życia/aktywacji takiej usługi zarządza system operacyjny a nie aplikacja.

Zwykłe aplikacje desktop nie mają możliwości pracy w tym trybie. Mają one zbyt dużo zależności do systemu i MS zdecydował że wiązałoby się to z wybudzeniem całego Windows. A więc operacja byłaby bez sensu. Zamiast tego pozwolono wybudzać się tylko aplikacjom metro. I mogą one wykonywać tylko z góry ustalone czynności takie jak: ściąganie/wysyłanie plików na zdalny serwer, odtwarzanie muzyki, synchronizacja itp.

Jest to chyba pierwszy raz gdy system operacyjny wdrożył specjalny tryb pracy, oraz specjalny typ aplikacji zaprojektowany wspólnie z twórcami sprzętu. Praca aplikacji w 'connected standby' zupełnie nie przypomina pracy zwykłej aplikacji Windows ale raczej pracę aplikacji w urządzeniach mobilnych

http://software.intel.com/en-us/articles/o...nnected-standby
http://msdn.microsoft.com/en-US/library/wi...rdware/jj128256
.
Tak więc puszczasz przykładowo muzykę z dysku lub np. spotify... usypiasz komputer... a muzyka leci dalej. Inną możliwością 'connected standby' jest odebranie rozmowy przez Skype bezpośrednio na uśpionym komputerze który to może zasygnalizować dźwiękiem. Jak na telefonach :)
NiezmordowanyZobacz profil
Poziom ostrzeżenia: 0%
Niezmordowany2013.03.24, 09:34
Trochę nie rozumiem podejścia AMD. Intel próbuje narzucić to, jak powinna wyglądać przyszłość i na czym się opierać.
A co jest wydajniejsze - GPU czy CPU? Zatem mam nadzieję, że Czerwoni skupią wszystkie swoje siły na przejmowaniu przez GPU wszelkich obliczeń.

Być może już zaczęli to robić wraz z Bulldkami, teraz konsole i ich priorytety zdają się klarować.
Stefan999Zobacz profil
Poziom ostrzeżenia: 0%
Stefan9992013.03.24, 09:47
-4#6
Podkrecanie zablokowane dla i3 i i5, nie jest dobrze.
vascuez00Zobacz profil
Poziom ostrzeżenia: 0%
vascuez002013.03.24, 10:34
Witam wszystkich forumowiczów
To Mój pierwszy post na Lab'ie ;)
Jako że od niedawna jestem posiadaczem IVY(I5 3750, nie bawię się w podkręcanie), stwierdzam że Haswell jest dobrym krokiem(małym - bo małym, ale dobrym)w przód Intela pod względem poprawy architektury rozwijanej od Sandy Bridge.
Jak napisano powyżej rynek idzie coraz bardziej w mobilność, konsumencike życie w biegu wymaga innego podejścia producentów, więc zarówno AMD, jak i Intel idą w integry i energooszczędność. Oczywiście to co napisałem -wiadomo - Ameryki żadnej nie odkryłem, ale wszystko idzie w dobrym kierunku ... żeby jeszcze tak gry były 'lepiej' optymalizowane pod wielowątkowość - to byłoby już całkiem ok.
Oczywiście rewolucja w klasie PC nadejdzie dopiero z chwilą permanentnego skrócenia opóźnień wynikającej ze specyfikacji RAM, PCI-E oraz NB(płyta główna) oraz zwiększenia IPC(tu mamy kolejne 5 do 7% w stosunku do IB - ale to już też wszyscy wiedzą)...Panaceum może być na to(jak kolega Bany_krk powyżej napisał zmiana architektury x86 na RISC i prace nad jej udoskonaleniem(co zresztą zbyt prędko nie nastąpi).
Zresztą w zamierzchłych czasach przykład przykład Sony z jej pierwszym Playstation ze swoim 'marnym' 33Mhz procesorkiem RISC dawał w kość pentiumowi 120 MHz z kartą Virge 3D ...
KunnorinnoZobacz profil
Poziom ostrzeżenia: 0%
Kunnorinno2013.03.24, 11:43
-8#8
Po co oni do procków do stacjonarek wrzucają GPU? Nikt z tego nie korzysta a zajmuje tylko miejsce
Mich486Zobacz profil
Poziom ostrzeżenia: 0%
Mich4862013.03.24, 11:44
-5#9
Mam nadziej że sobie kupie Haswella, moim zdaniem wnosi dużo usprawnień w architekturze. Najbardziej jestem ciekaw nowych instrukcji AVX i usprawnień w wielowątkowości. Może Ht będzie wydajniejszy.
gofer87Zobacz profil
Poziom ostrzeżenia: 0%
gofer872013.03.24, 12:07
No, podoba mi się że wzrasta energooszczędność, ale szkoda że wydajność tylko małymi krokami, fajnie by było jak by co generację przynajmniej o te 20% był wzrost.
Być może wydajność krzemu się kończy, jeśli tak to niedługo pierwsze skrzypce we wszelkich technikach wymagających dużej wydajności powinny przejść na GPU,lub open CL, a procesor będzie tylko utrzymywał system.
Wydajność kart graficznych rośnie często ponad 50% z generacji na generację, nawet czasami ponad 100% no i możliwości SLI/CROSS FIRE.
Super jak by nowe gry odeszły od zapotrzebowania na mocny procesor a wszystkie efekty, SI liczone by były w kodzie dla kart graficznych np w technice dostępnej dla amd jak i nvidia, open CL, ale większość programistów to lenie, lepiej coś zrobić na odwal w dobrze znanym C++ niż zrobić to samo, może i nawet parę razy dłużej ale w technice umożliwiającej parokrotne zwiększenie wydajności aplikacji.
Zaloguj się, by móc komentować
1