Historia architektury procesorów Core 2 Duo i poczynania Intela w tamtych latach

Kiedy mniej więcej w połowie 2006 roku nadeszły pierwsze procesory Core 2 Duo, Intel pracował jednocześnie z dwiema mikroarchitekturami. Były to: NetBurst alias P68, stosowana w procesorach Pentium 4 i Pentium D, oraz zmodyfikowana P6, przeznaczona do mobilnych układów Pentium M i Core. Ta pierwsza okazała się totalną klapą. Wówczas w obozie Intela panowało błędne przekonanie o wysokiej częstotliwości zegara taktującego jako kluczu do uzyskania dobrej wydajności, przez co nieskończenie wydłużano potok wykonawczy, a tym samym redukowano liczbę instrukcji przypadających na cykl zegara (IPC – ang. instructions per cycle). W rezultacie Pentium 4 w wielu zastosowaniach, również grach, zbierały srogie cięgi od konkurencyjnych Athlonów 64, a przy tym zużywały więcej energii. Mało tego, czasem zdarzało im się przegrywać nawet z energooszczędnymi Pentium M – przy kilkuset megahercach różnicy w częstotliwości taktowania. Dość powiedzieć, że niektórzy ówcześni użytkownicy komputerów stacjonarnych zainteresowani ofertą Intela decydowali się – co z perspektywy czasu wydaje się wręcz komiczne – na zakup procesora mobilnego. Można było kupić nie tylko adaptery konwertujące Socket 478 (Pentium 4) na Socket 479 (Pentium M), ale nawet gotowe płyty główne, wyposażone od razu w docelową podstawkę.

Co ciekawe – mając na uwadze zaistniałe fakty – mikroarchitektura P6 została wprowadzona jeszcze w 1995 roku, wraz z Pentium Pro, czyli pierwszym procesorem umożliwiającym wykonywanie spekulatywne i poza kolejnością. (Stąd, nawiasem mówiąc, wywodzą się luki Meltdown i Spectre). Innowacyjność P6 polegała na rozbudowaniu potoku względem klasycznego Pentium o dodatkowe etapy dekodowania, w których 32-bitowe instrukcje IA-32 rozbijane były na szereg mniejszych mikrooperacji, niezależnie analizowanych, kolejkowanych itd. Tak postawiono pewne fundamenty pod dzisiejszą superskalarność, bo mikrooperacje mogły być realizowane symultanicznie przez różne jednostki wykonawcze, a tych Pentium Pro miał łącznie sześć, w tym dwie dla arytmetyki stałoprzecinkowej i jedną dla zmiennoprzecinkowej.

Sprawdź, w jakich cenach są współczesne procesory Intela

No dobrze, z tą superskalarnością nie było wcale tak kolorowo. Tylko dwie z wymienionych jednostek mogły zostać użyte symultanicznie, przez współdzielenie portów pomiędzy jedną z jednostek stałoprzecinkowych i jednostką zmiennoprzecinkową, co, na domiar złego, skutkowało ograniczoną funkcjonalnością arytmetyczną tej pierwszej. Niemniej narodziła się mechanika, którą doskonale znamy po dziś dzień, mianowicie zaczęto rozkładać, we front-endzie procesora, złożone rozkazy CISC na szereg prostych rozkazów RISC. Na tej zasadzie działa każda współczesna centralna jednostka obliczeniowa, przynajmniej w komputerach klasy PC (i dlatego też podział na modele programowe CISC oraz RISC zszedł na margines).

Jako że Pentium Pro miał skłonność do przestojów potoku, gdy wykonywał kod 8- lub 16-bitowy, a większość komputerów pracowała jeszcze pod kontrolą systemu DOS, dużej popularności nie zdobył. Ponadto był on wręcz niebotycznie drogi w produkcji ze względu na umieszczenie pamięci podręcznej w odrębnej strukturze krzemowej i brak możliwości sprawdzenia poszczególnych elementów tej układanki na etapie produkcji, przed wytworzeniem kompletnego procesora.

Innowacyjny układ dał jednak Intelowi niezwykłą podstawę do dalszego rozwoju.

Przez parę dalszych lat, aż do ostatniego kwartału 2000 roku, Intel koncentrował się wyłącznie na rozwijaniu P6. Pierwszy krok naprzód stanowił Pentium II, produkowany w latach 1997–99. W porównaniu z Pentium Pro największą zmianą była zewnętrzna forma tego procesora. Żeby obniżyć koszty produkcji, pamięć podręczną poziomu drugiego przeniesiono na zewnątrz jednostki, całość zaś, a więc procesor wraz z modułami pamięci podręcznej, umieszczono na podłużnym laminacie, w kartridżu SECC – Slot 1. Ale na tym nie koniec. Wprowadzono też dodatkową pamięć podręczną dla rejestrów segmentowych, co zwiększyło wydajność działań na 16 bitach, a ponadto podjęto próbę uporania się ze spadkiem wydajności w razie przestoju potoku przez dodanie flagi wewnętrznej. Co więcej, niejako skompensowano mniejszą szybkość zewnętrznej pamięci podręcznej L2 podwojeniem ilości L1 – do 32 kB. Wisienką na torcie był zestaw instrukcji MMX.

W 1999 roku przyszła kolej na Pentium III, który, w pewnym uproszczeniu, był Pentium II rozszerzonym o obsługę wektorowych instrukcji SSE. Z biegiem czasu porzucono też nieforemną kartridżową budowę na rzecz konwencjonalnego gniazda Socket 370 (wybrane układy Coppermine), a także dodano system pobrań wyprzedzających (Tualatin). Oczywiście, wraz z upływem lat regularnie zmieniano klasę procesu litograficznego, eksperymentując przy tym nieznacznie z długością potoku, dzięki czemu ostatnie Pentium III dobijały do 1,4 GHz, podczas gdy maksymalna częstotliwość taktowania pierwszych Pentium II wynosiła 300 MHz. Ciekawostka: system pobrań wyprzedzających jest kluczowy dla wydajności, kiedy procesor ma duży blok pamięci podręcznej, a Tualatin miał nawet 512 kB L2 (w tamtych czasach było to dużo). Nie zawsze dane potrzebne do obliczeń znajdują się w pamięci podręcznej, a im większą ma ona pojemność, tym dłużej zajmuje procesorowi „odgadnięcie”, że należy zaczerpnąć dane z RAM-u. Sam dostęp do pamięci operacyjnej wymaga zarazem kilkunastu cykli zegarowych, przez co dalej ogranicza końcową wydajność operacji. Pobieranie z wyprzedzeniem pozwala uniknąć takich sytuacji.

I być może właśnie dlatego inżynierowie Intela, widząc, jak dobrze wydajność mikroarchitektury P6 skaluje się z częstotliwością zegara taktującego, uznali, że przyspieszenie taktowania to przepis na sukces. Mikroarchitektura NetBurst, zaprezentowana szerszej publiczności po raz pierwszy w 2000 roku pod postacią rdzenia o nazwie Willamette, została skonstruowana niemalże od zera, z myślą o uzyskaniu jak najszybszego taktowania. Najpierw do granic absurdu zwiększano długość potoku, która w pewnym momencie wynosiła aż 31 etapów, a później walczono z problemem błędnych przewidywań, które przy takiej konstrukcji były zabójcze dla wydajności (zwróćcie uwagę, ile cykli zegarowych może pochłonąć samo cofnięcie w razie błędnego przewidzenia rozgałęzienia). Przy czym Pentium 4 z założenia były procesorami bardzo zależnymi od częstotliwości pracy, a przez to łakomymi na energię elektryczną. Świadomy tego Intel w ich cieniu zaczął rozwijać serię Pentium M do komputerów przenośnych na podstawie rozwiązań z Pentium III. Jedynie magistralę FSB zaczerpnięto z ówczesnej linii desktopowej, usprawniając do tego mechanizm przewidywania rozgałęzień, dodając zestaw instrukcji SSE i rozbudowując pamięć podręczną L2, z 512 kB do 2 MB. Czołowe modele Pentium M umiały pracować z częstotliwością taktowania lekko przekraczającą 2 GHz.

Kiedy narodziła się koncepcja procesora wielordzeniowego, a komputery stacjonarne były rozgrzewane do czerwoności przez Pentium D, podział na układy desktopowe i mobilne zarysował się jeszcze mocniej. Pentium D był bowiem dwoma Pentium 4 połączonymi magistralą FSB i zamkniętymi w jednej obudowie, z oddzielną pulą pamięci podręcznej. Technicznie rzecz biorąc, bliżej mu było do rozwiązania dwuprocesorowego, na wzór płyt głównych do serwerowych procesorów Xeon, niż dwurdzeniowca z prawdziwego zdarzenia. W laptopach takie rozwiązanie nie miało prawa zaistnieć ze względu na ogromne zużycie energii elektrycznej. Dlatego Intel stworzył Core Duo, ponownie sięgnąwszy do architektury P6 (i ponownie poczyniwszy zaskakująco proste kroki). Rdzenie Pentium M przeorganizowano tak, by łączyć je parami, z wykorzystaniem 2 MB współdzielonej pomiędzy nimi pamięci L2, co eliminowało problem spójności danych. Użyto przy tym magistrali FSB przeniesionej z późniejszych Pentium 4, o przepustowości 533 MT/s lub 667 MT/s, a całość okraszono obsługą instrukcji SSE3. Kiedy czołowy model Core Duo, T2700, taktowany z częstotliwością 2,33 GHz, potrafił stawać w szranki z Pentium D 945, taktowanym z częstotliwością 3,4 GHz i wymagającym ponadtrzykrotnie więcej energii, przyszłość wyglądała klarownie.

Tutaj jednak, chcąc zrozumieć fenomen Core 2, należy cofnąć się raz jeszcze do 2003 roku, kiedy to Intel wprowadził rdzeń Banias, pierwszy z udoskonalonych Pentium III, a więc Pentium M. W układzie tym zastosowano bardzo innowacyjne wówczas techniki usypiania niewykorzystywanych zasobów, przez bramkowanie zegara, w jednym tylko cyklu zegarowym. Mało tego, pamięć podręczną podzielono na 32 niezależnie sterowane bloki, z układem logicznym analizującym (i wyłączającym) bloki nieaktywne. Wreszcie poprowadzono zasilanie magistrali procesora tak, żeby nie zasilać fragmentów w danej chwili zbędnych, ze szczególnym naciskiem na układy buforowania.

Ale na tym nie koniec. Banias był pierwszym układem Intela, który umożliwiał płynne stopniowanie częstotliwości zegara, co 200 MHz, oraz napięcia. Dla kontrastu, starsze jednostki miały wyłącznie dwa tryby, spoczynku i obciążenia. W ten sposób obniżono TDP do 22 W, z 32 W charakterystycznych dla czołowego Pentium III Tualatin 1,4 GHz. Zarazem zwiększyła się wydajność, Banias bowiem zyskał szereg ciekawych cech, które potem przeniesiono Conroe (Core 2). Podczas gdy Pentium III miał potok 10-etapowy, w Baniasie zastosowano 12 etapów: dodano funkcję fuzji mikrooperacji (ang. Micro Ops Fusion), która pozwalała na symultaniczne wprowadzenie do potoku i wykonanie dwóch niezależnych mikroinstrukcji, po uprzednim zdekodowaniu i rozłożeniu rozkazów. To już kwintesencja współczesnej superskalarności. Ponadto zwiększono dwukrotnie, do 80 pozycji, rozmiar bufora przechowującego mikrooperacje wykonywane poza kolejnością, a także wprowadzono wyspecjalizowany menedżer stosu, ulepszony mechanizm przewidywania rozgałęzień i nowy moduł pobrań wstępnych. Te ostatnie zmiany okazały się o tyle konieczne, że Banias zapewnił, ponownie, zwiększoną pamięć podręczną: L1 – 64 kB, L2 – 1024 kB.

Po upływie nieco ponad roku pamięć podręczna rozrosła się raz jeszcze. Dothan, zrewidowana wersja Baniasa, otrzymał bowiem 2048 kB L2, a przy tym wykonano go w technice rozciągniętego krzemu (ang. Strained Sillicon – zwiększona odległość między atomami), co pozwalało wyraźnie przyspieszyć zegar taktujący.

Na początku 2006 roku istotnie zmodyfikowana już mikroarchitektura P6 wkroczyła w erę wielordzeniowości. Ówczesne układy wielordzeniowe, jak już zdążyłem wspomnieć, były raczej konstrukcjami wieloprocesorowymi, w których każdy rdzeń miał własną pamięć podręczną. Tak zbudowany był zarówno Pentium D, uzyskany z dwóch Pentium 4, jak i Athlon 64 X2. Ale układ Yonah, bo o nim tu mowa, był rewolucyjny.

Czy wiesz, że najpopularniejszym procesorem Intela w Polsce jest Intel Core i5-8400?

Intel po raz pierwszy użył terminu Smart Cache, stosując współdzielony cache. Nieco upraszczając, można by powiedzieć, że do Dothana z 2 MB L2 po prostu „doklejono” jeszcze jeden rdzeń. Zunifikowana pamięć podręczna pozwoliła obejść istotny problem tamtych czasów, którym była konieczność uzgadniania jej zawartości. Kiedy jeden rdzeń dokonywał modyfikacji w L2, musiał wysłać informacje o tych zmianach, a następnie, jeśli zachodziła taka konieczność, umożliwić pobranie danych. Na synchronizację było traconych kilkanaście cykli zegarowych, podczas których blokowana była magistrala.

Układy starszego typu były zarazem droższe w produkcji, ponieważ Intel, żeby zbudować Yonaha na wzór Pentium D, musiałby zastosować 4 MB L2, a i tak efektywnie wykorzystywana byłaby połowa tej pamięci (ze względu na duplikowanie zawartości).

Wprawdzie uwspólnienie pamięci podręcznej wpłynęło też na wzrost czasu dostępu do niej, bo komunikacja ze strony obydwu rdzeni następowała naprzemiennie, ale poszerzenie ścieżki adresowej przyspieszyło transfery, co zniwelowało ten mankament. Co oczywiste, zmiany w podsystemie pamięci podręcznej raz jeszcze pociągnęły za sobą konieczność przebudowy modułów przewidywania rozgałęzień i pobrań wstępnych. Dane dostarczano od teraz dla dwóch rdzeni, a nie jednego. Dodatkowo umożliwiono dokonywanie fuzji mikrooperacji na wektorowych instrukcjach SSE, co zwiększyło efektywność ich wykonywania. Ostatecznie dodano nieznany dotąd stan energetyczny, umożliwiający wyczyszczenie pamięci podręcznej podczas głębokiego uśpienia (i przeniesienie jej zawartości do RAM-u), przy czym oba rdzenie były zarządzane niezależnie.

Nawet Yonah nie mógł jednak aspirować do miana flagowego procesora do desktopów, liczącego się w walce z bardzo udanymi układami AMD K8 Hammer. Był bowiem strukturą projektowaną głównie z myślą o uzyskaniu jak najlepszego stosunku wydajności do zużycia energii, a nie sprzętem z założenia wysoko wydajnym. Przyszły flagowiec upatrywano w układzie Tejas, czyli Pentium 4 przeniesionym na proces litograficzny klasy 65 nm, o jeszcze wyższej częstotliwości taktowania. Ten jednak nigdy nie został wprowadzony. Nieoficjalnie mówi się, że projekt porzucono ze względu na niezwykle wysokie zużycie energii, co, znając specyfikę mikroarchitektury NetBurst, jest bardzo prawdopodobną teorią. Niebiescy musieli więc stworzyć coś innego w możliwie krótkim czasie. Postanowiono znów poeksperymentować z P6.

W drugiej połowie 2006 roku, krótko przed wprowadzeniem układu Conroe, a więc pierwszego Core 2, Intel chwalił się, że nowość łączy zalety mikroarchitektur P6 oraz NetBurst. W praktyce z tej drugiej zostało niewiele, a twierdzenie Intela bardziej było obrazowym przedstawieniem zmian umożliwiających P6 pracę z wyższą częstotliwością taktowania. Ale do rzeczy.

Pamiętacie jeszcze wspomnianą już funkcję fuzji mikrooperacji? Dodano do niej funkcję fuzji makrooperacji (ang. Macro-Fusion). Conroe zyskał możliwość analizowania rozkazów przed dekodowaniem, a następnie łączenia ich w pary na etapie dekodera i równoległego wykonania. Sumarycznie do potoku wprowadzane były nie dwie, ale cztery instrukcje. Żeby usprawnić superskalarność, dodano po jednej jednostce stało- i zmiennoprzecinkowej. Tym samym nowy procesor miał do dyspozycji po trzy ALU oraz FPU zamiast dwóch, jak Yonah. Z czego same FPU przebudowano tak, by umożliwić im wykonywanie 128-bitowych operacji macierzowych w jednym cyklu. W starszym Yonahu istniała pojedyncza specjalna jednostka SIMD, na dodatek uboższa w obsługiwane instrukcje (Conroe zyskał zestaw instrukcji tworzonych z myślą o układzie Tejas).

Ale na tym nie koniec, bo samo zarządzanie rozkazami jest równie ważne co zdolność do ich wykonywania. Dlatego też, konsekwentnie trzymając się idei wprowadzenia do potoku czterech instrukcji, musiano rozbudować podsystemy dekodowania i dyspozytor. P6 miał trzy dekodery, w tym jeden ogólnego przeznaczenia i dwa dla instrukcji uproszczonych, P8 zaś – cztery, z dodatkowym dekoderem prostym, a trójdrożny dyspozytor zastąpiono czterodrożnym, zwiększając ponadto rozmiar bufora mikrooperacji oczekujących i bufora ROB (wykonywania poza kolejnością) do, odpowiednio, 32 i 96 pozycji. Raz jeszcze zwiększono też ilość L2, do 4 MB, choć ekonomiczna odmiana rdzenia Conroe, Allendale, wciąż zapewniała tylko 2 MB tej pamięci. Siłą rzeczy należało przystosować system pobrań wyprzedzających i przewidywań.

Szczerze powiedziawszy, jedynym faktycznym zapożyczeniem z Pentium 4 – pomijając dodanie instrukcji SSE4, które do sprzedażowych modeli ze starszej generacji i tak nigdy nie trafiły – okazało się rozszerzenie EM64T, umożliwiające wykonywanie 64-bitowego kodu. Jak pamiętamy, zarówno Pentium M, jak i pierwsze Core nie radziły sobie z takim kodem, a Intel, nawiasem mówiąc, tłumaczył to brakiem potrzeby wprowadzenia x86_64 do laptopów. Wisienką na torcie był 14-fazowy potok, zastosowany w miejsce 12-fazowego, dzięki któremu udało się dobić do granicy 3,0 GHz, a później, po zmianie procesu technologicznego klasy 65 nm na proces klasy 45 nm, nawet wyraźnie ją przekroczyć.

Co z tego wyszło? Wszyscy doskonale wiemy. Układy Core 2 okazały się ogromnym sukcesem komercyjnym, a wraz z ich nadejściem rozpoczęła się era hegemonii Intela na rynku procesorów konsumenckich, której konkurencyjne AMD zdołało zagrozić dopiero w ubiegłym roku, kiedy to wprowadziło układy z linii Ryzen.

Teraz zwróćcie uwagę na to, jak niewiele dzieli „dziadka” Pentium Pro i rewelacyjne Core 2. Nigdy wcześniej (w istocie także nigdy później) w branży technologicznej żadne rozwiązanie nie oparło się próbie czasu tak, jak zrobiła to mikroarchitektura P6. Przy czym fiasko związane z mikroarchitekturą NetBurst stanowi doskonałą lekcję o tym, że nie zawsze ślepe parcie w przód ma sens. Czasem wystarczy dobrze wykorzystać to, co już jest znane. Dziwić może tylko powtórzenie błędu Intela przez jego największego konkurenta. Mianowicie bezgranicznej wiary AMD w wysokie częstotliwości taktowania w przyszłej linii mikroarchitektur modułowych, z legendarnym Centurionem na czele. To już jednak temat na osobną publikację…

Data utworzenia: 14 kwietnia 2018 17:00, aktualizacja: 17 kwietnia 2018 17:37

Piotr Urbaniak

Źródło:

Piotr Urbaniak

Tematy: Intel, Core 2 Duo, procesor, CPU, Historia