Intel Developer Forum 2010 – relacja. Dzień 1

Jak Intel się zmienia

Wczoraj mówiliśmy o tym, że przed projektowaniem układów półprzewodnikowych trzeba wykonać całą masę pracy niezwiązanej z zagadnieniami elektronicznymi. Wspomnieliśmy też, że osoby projektujące i produkujące układy scalone to obecnie stosunkowo mała część pracowników Intela. Ale nie zawsze tak było. O zmianach w Intelu mówił w przemówieniu oficjalnie otwierającym IDF Paul Otellini, prezes firmy.

Otellini zwrócił uwagę na kolejne obszary działalności, którymi należało się zająć. Dziesięć lat temu Intel produkował procesory. Parę lat później zaczęto wiele mówić o produkcji platform, nie procesorów. Ale chipset i procesor dziś już nie wystarczają – Intel ma zamiar wziąć się na poważnie za oprogramowanie i usługi (cokolwiek miałyby one oznaczać).

Nie powinno to nikogo dziwić. Wielowątkowe architektury, nowe rozszerzenia zestawu instrukcji i kolejne wyspecjalizowane jednostki wbudowane w procesory nawet dziś są wykorzystywane tylko przez wybrane oprogramowanie. Jeśli producenci (nie tylko Intel czy AMD, ale również producenci architektur innych niż x86) chcą utrzymać tempo wzrostu wydajności i funkcjonalności, muszą sami zapewnić dobre sposoby wykorzystania swojego sprzętu.

Intel mówi poważnie – częścią jego nowej programowej oferty ma być AppUp. Chodzi o platformę do tworzenia i sprzedaży aplikacji do netbooków. Już od jakiegoś czasu działa strona www.appup.com, z której można pobrać (lub kupić) programy do netbooków z systemami Windows i Moblin (Meego).

Architektura x86 w każdym urządzeniu

W zeszłym roku Intel podjął plan zakładający obecność architektury x86 w całej gamie urządzeń, od desktopów i laptopów do telewizorów i komputerów pokładowych w samochodach. Zaczyna on przynosić pierwsze owoce. W trakcie otwierającego przemówienia zaprezentowano telewizor Sony Internet TV z procesorem Atom i oprogramowaniem Google TV.

Pokazano również całą gamę urządzeń przenośnych i technik mających ułatwić korzystanie z nich, jak bezprzewodowe wyświetlanie obrazu z tabletu na telewizorze:

Wideokonferencja prowadzona między sceną a dwoma zakulisowymi pomieszczeniami stała się pretekstem do zademonstrowania procesorów Sandy Bridge i ich nowych funkcji.

Sandy Bridge – nowa mikroarchitektura

Otóż cała wideokonferencja (trzy strumienie wideo) była na bieżąco szyfrowana z wykorzystaniem algorytmu AES. Szyfrowaniem zajmował się serwer oparty na platformie Romley, z dwoma ośmiordzeniowymi serwerowymi procesorami Sandy Bridge. Wszyscy trzej uczestnicy wideokonferencji używali procesorów Sandy Bridge. Nowa funkcjonalność jest wynikiem dodania zestawu instrukcji AES-NI (obecnego w dostępnych dzisiaj 32-nanometrowych procesorach Intela), co umożliwia kodowanie strumienia wideo wystarczająco szybkie, żeby dało się go płynnie wyświetlić.

Na scenie od lewej: serwer Romley, stacja robocza z procesorem Sandy Bridge, laptop z procesorem Sandy Bridge, laptop z procesorem Core i7

Przypomnimy, co już wiemy na temat procesorów Sandy Bridge, i objaśnimy kilka nowych informacji.

Nowa architektura w sprawdzonym procesie technologicznym

Sandy Bridge stanowi „Tock” w wahadłowej strategii Intela, zakładającej coroczną zmianę procesu technologicznego i architektury procesorów. W tym wypadku zmieniono nie tylko mikroarchitekturę, ale i makroarchitekturę. Obok zmian w samym rdzeniu procesora całkowicie przebudowano cały czip i połączenia między jego częściami.

Zintegrowany układ graficzny

O połączeniu procesorów graficznego i głównego mówi się już od kilku lat. W układach Core i5 i Core i3 zostało to częściowo zrealizowane: rdzeń graficzny znalazł się wewnątrz procesora zbudowanego jako moduł wieloczipowy (dwa jądra krzemowe w jednej podstawce). W generacji Sandy Bridge ten rdzeń jest częścią struktury logicznej i fizycznej procesora i całość znajduje się w jednym jądrze. Obsługa grafiki w Sandy Bridge jest pochodną układów Intel GMA i GMA HD, znanych z chipsetów G45 i procesorów Core i5/Core i3. Przebudowane jednostki wykonawcze oraz nowe wyspecjalizowane obwody do kodowania wideo i niektórych funkcji potoku 3D mają dać wydajność o wiele większą niż poprzednia generacja. Na scenie uruchomiono Starcrafta 2 na dwóch laptopach: jeden miał Core i7 i oddzielny układ graficzny, drugi miał Sandy Bridge i układ zintegrowany. Nie było różnicy w płynności rozgrywki, ale nie wiemy, jakie były ustawienia jakości obrazu.

Laptop z mobilnym Sandy Bridge i uruchomionym Starcraftem 2. Niestety, nawet wspaniały rdzeń graficzny w Sandy Bridge nie pomaga, jeśli masz błyszczącą matrycę...

Nowe turbo i zarządzanie energią

Połączenie wszystkiego w jedno jądro krzemowe otworzyło przed inżynierami Intela zupełnie nowe możliwości, jeśli chodzi o zarządzanie mocą i wydajnością. Znany z mobilnych procesorów Core i5 i Core i3 tryb turbo rdzenia graficznego powraca, ale znacznie usprawniony. Ponieważ wszystko jest na jednym kawałku krzemu, można mierzyć temperaturę, stopień wykorzystania i natężenie prądu zasilającego z bardzo dużą dokładnością i częstotliwością. Obecna już w Nehalemie jednostka PCU (ang. Power Control Unit) zarządza taktowaniem w taki sposób, żeby maksymalnie wykorzystać dostępną w ramach ograniczeń cieplnych i prądowych moc. Rozwiązanie jest całkowicie sprzętowe – nie jest obsługiwane przez sterownik, jak w dzisiejszych procesorach. Przełączanie częstotliwości rdzenia graficznego ma następować znacznie szybciej i częściej. Ponadto tryb turbo, zarówno w przypadku rdzeni x86, jak i graficznego, może teraz na krótki czas (do 25 sek.) przekroczyć limit TDP. Zakłada się, że układ chłodzący ma pewną pojemność cieplną i po długich okresach niskiej aktywności nie nagrzewa się od razu, tylko stopniowo. Właśnie zanim się nagrzeje, można przekroczyć limit TDP bez szkody dla równowagi całego systemu.

Cały procesor został podzielony na trzy „obszary” zasilania: w jednym, zasilanym stałym napięciem, znajduje się System Agent (więcej o tej jednostce przeczytacie na następnej stronie). W drugim, o napięciu regulowanym w razie potrzeby, są wszystkie rdzenie x86 i pamięć podręczna L3. W trzecim umieszczono rdzeń graficzny.

Zestaw instrukcji AVX

Same rdzenie x86 również przeszły gruntowną przebudowę. Największe zmiany nastąpiły w jednostkach FPU/SSE, zajmujących się przetwarzaniem instrukcji multimedialnych i arytmetyki zmiennoprzecinkowej. Dwie 128-bitowe jednostki FPU/SSE zostały przystosowane do działania jako jedna, 256-bitowa jednostka AVX. Możliwość przetwarzania dwukrotnie większej ilości danych wymaga dostarczenia dwukrotnie większej ilości danych, dlatego przebudowano również pamięć podręczną. Można teraz wykonywać dwa odczyty z L1 jednocześnie.

Usprawniony dekoder

W poszukiwaniu dodatkowej wydajności i oszczędności energii przyjrzano się też dekoderowi instrukcji. Dołączono do procesora niewielką ilość pamięci, zdolną pomieścić około 1,5 tys. zdekodowanych mikrooperacji. Zasada działania jest prosta: powtarzających się często instrukcji, a nawet całych ich sekwencji nie trzeba dekodować za każdym razem, wystarczy odczytać rezultat z pamięci. W połączeniu z nowym, bardziej zaawansowanym układem przewidywania skoków daje to wyższą wydajność w przeciętnych warunkach (czyli wtedy, kiedy rozgałęzienia kodu są łatwo przewidywalne) oraz oszczędność mocy dzięki możliwości wyłączenia tradycyjnego dekodera.

Makroarchitektura, czyli jak to wszystko połączyć

Zintegrowanie w jednym jądrze rdzeni x86 i rdzenia graficznego zmusiło inżynierów Intela do zorganizowania od nowa przepływu danych w procesorze. Zastosowano magistralę pierścieniową łączącą poszczególne bloki pamięci podręcznej trzeciego poziomu, rdzeń graficzny i nowy blok nazwany System Agent. System Agent to nic innego jak rozbudowany blok uncore. Zawiera kontroler pamięci, kontrolery łączy IO takich, jak PCI Express i DMI, jednostkę kontroli mocy, układ obsługujący wyjście obrazu i kontroler magistrali pierścieniowej.

Każdy rdzeń ma przypisany blok pamięci podręcznej L3. Całość (wszystkie bloki) jest współdzielona przez wszystkie rdzenie x86 i rdzeń graficzny. Każdy blok pamięci podręcznej, układ graficzny i kontroler pamięci są „przystankami” na pierścieniu. Dane przesuwają się po magistrali z prędkością jednego przystanku na cykl zegara. Nie udało nam się dowiedzieć, czy taktowanie pierścienia jest równe taktowaniu rdzeni czy jakiegoś innego elementu procesora. Rdzeń graficzny ma możliwość wyłączenia części pamięci podręcznej L3 spod „władzy” rdzeni x86; dotyczy to na przykład bufora ekranu, do którego dostęp muszą mieć tylko rdzeń graficzny i kontroler wyjścia obrazu.

Jądro Sandy Bridge, wersja desktopowa (LGA1155, cztery rdzenie, osiem wątków, jeden rdzeń graficzny z 12 jednostkami wykonawczymi)

Podsumowanie

Wiadomości na temat Sandy Bridge jest oczywiście dużo więcej – w stosownym czasie postaramy się je zebrać ponownie i przedstawić w formie bardziej przystępnej niż relacja.

Z natłoku informacji chcieliśmy wyłowić przede wszystkim te o nowych procesorach, których w sklepach możemy się spodziewać w pierwszym kwartale 2011 roku. O innych dokonaniach Intela będziecie mogli przeczytać jutro w następnej części naszej relacji z IDF-u.

Mateusz Brzostek

Źródło:

Mateusz Brzostek

Tematy: Intel, x86, IDF, AVX, Sandy Bridge