Dziś mamy okazję przyjrzeć się bliżej serwerowi Dell PowerEdge T610 – maszynie zawierającej dwa procesory Xeon L5520. Zanim dokładnie przedstawimy te układy, przypomnijmy parę ważnych wiadomości na temat całej architektury Nehalem.
Cofnijmy się w czasie o rok i spójrzmy na przekrój rynku procesorów. W komputerach osobistych, w obliczu trudności AMD z dopracowaniem procesorów Phenom, tryumfy święciły Core 2 Duo i Core 2 Quad. W segmencie laptopowym platforma Centrino z procesorami Core 2 była najpopularniejszym wyborem. Za to na rynku serwerowym sytuacja była nieco inna: mimo pewnych różnic w wydajności na korzyść Xeonów Intela wielu klientów wybierało procesory konkurencji. Przewaga rynkowa procesorów AMD nad Intelowskimi rosła wraz z liczbą procesorów w jednej maszynie. Przyczyna była prosta: fundamentalne różnice między architekturami Barcelona (AMD Opteron) i Conroe (Intel Xeon).
Komputery z najnowszymi Xeonami miały budowę bardzo podobną do tych z najstarszymi, opartymi na architekturze Pentium II. Centralną drogą przepływu danych była magistrala FSB, do której były podłączone mostek północny z kontrolerem pamięci oraz procesory (pierwsze Xeony – od jednego do ośmiu, seria 73xx – do 32). O ile w czasach Pentium II magistrala FSB spełniała swoje zadania doskonale, to w miarę wzrostu wydajności procesorów i rozwoju oprogramowania serwerowego zaczęła stawać się wąskim gardłem. Przepustowość jednej, dzielonej magistrali przestawała wystarczać w miarę podłączania do niej kolejnych procesorów. Już przy jednym czterordzeniowym Xeonie na magistrali FSB były trzy urządzenia: mostek północny z kontrolerem pamięci i dwie pary rdzeni, położone na osobnych krzemowych jądrach. Proste pobranie danych z pamięci podręcznej dwóch z trzech innych rdzeni musiało już odbywać się za pośrednictwem FSB, co powodowało duże opóźnienia i przestoje w innych transferach (z i do pamięci lub do urządzeń na magistrali PCI). Problem został częściowo rozwiązany przez inżynierów Intela: dwurdzeniowe Xeony w architekturze Conroe wyposażono we wspólną pamięć podręczną drugiego poziomu, co zdejmowało z FSB ciężar komunikacji między rdzeniami. Pod koniec ewolucji architektury Conroe w sześciordzeniowych procesorach Dunnington zastosowano wspólną pamięć podręczną trzeciego poziomu. Podobnymi technologiami nie dało się jednak ominąć wąskiego gardła FSB w systemach wieloprocesorowych. Im więcej procesorów w serwerze, tym bardziej ograniczała je przepustowość FSB i wydajność jednego kontrolera pamięci.
Tymczasem AMD już w 2003 roku obrało inną drogę. Swoją nową architekturę Hammer firma zaprojektowała zarówno z myślą o zastosowaniach domowych, jak i serwerowych. Zrezygnowano z FSB, a kontroler pamięci umieszczono bezpośrednio w procesorze. To pociągnęło za sobą zmiany w całym systemie – od tej pory zamiast jednego podsystemu pamięci (kontroler plus pamięć) było ich tyle, ile procesorów. Procesory otrzymały specjalne łącze typu punkt-punkt: HyperTransport, przez które miały komunikować się między sobą i z urządzeniami peryferyjnymi. To oczywiście wymusiło zmiany również w oprogramowaniu. Ponieważ dostęp procesora do danych we własnym podsystemie pamięci był szybszy i łatwiejszy niż w podsystemie innego procesora, systemy operacyjne zostały przystosowane do architektury NUMA (ang. Non-Uniform Memory Architecture – architektura o niespójnej pamięci). W zarządzaniu pamięcią operacyjną zaczęły one uwzględniać fizyczne położenie danych w obrębie poszczególnych procesorów – węzłów NUMA. Okazało się, że takie podejście zapewnia większy przyrost wydajności po dołożeniu układów do systemu. O ile procesory z FSB można było z zyskiem łączyć po dwa lub cztery, układy z własnymi kontrolerami pamięci sprawowały się dużo lepiej w serwerach o czterech, ośmiu i więcej podstawkach.
Wreszcie na tę drogę wkroczył również Intel. Architektura Nehalem została przygotowana pod kątem modularności, co oznacza możliwość tworzenia wyspecjalizowanych procesorów bez konieczności całkowitego przeprojektowywania podstawowych części układu. Czytelnikom bardziej zainteresowanym architekturą Nehalem polecamy jej opisy w naszej recenzji pierwszych Core i7 oraz w poradniku podkręcania Core i7.
Czym się różni Gainestown od Bloomfielda?
Warto zauważyć, że wydane do tej pory Core i7 i Xeony są wariantem mikroarchitektury Nehalem przystosowanym bardziej do serwerów niż do komputerów biurkowych. Zarówno desktopowe Core i7, jak i serwerowe Xeony serii 5500 są oparte na tych samych jądrach krzemowych.
Różnica między układami jedno- i wieloprocesorowymi polega w tym wypadku na liczbie łączy QuickPath, służących do komunikacji między procesorami i między procesorem a resztą systemu. Core i7 i niektóre Xeony mają włączone tylko jedno łącze QPI, którym komunikują się z chipsetem X58. Xeony wieloprocesorowe mają aktywne dwa łącza QPI – jednym z nich komunikują się z drugim procesorem, a drugim – z układem X58. Sam chipset X58 też ma dwie wersje: desktopową z jednym łączem QPI i serwerową, sprzedawaną pod nazwą Intel 5520 Chipset, z dwoma takimi łączami. Przygotowywane przez Intela ośmiordzeniowe Xeony będą miały w strukturze krzemowej więcej terminali QPI, co pozwoli na tworzenie konfiguracji o czterech lub większej liczbie procesorów. Zasilanie ośmiu rdzeni i wyprowadzenie styków dla dodatkowych łączy QPI będzie wymagało zastosowania nowej podstawki, z większą liczbą styków niż w LGA1366.
Xeony przeznaczone do konfiguracji jednoprocesorowych są niemalże dokładnymi odpowiednikami Core i7. Są jednak pewne drobne różnice. Porównajmy Core i7-940 z tak samo taktowanym Xeonem X5570:
Core i7-940 | Xeon X5570 | |
---|---|---|
taktowanie | 2,93 GHz | 2,93 GHz |
mnożnik | ×22 | ×22 |
mnożnik TURBO dla trzech lub czterech rdzeni | ×22 | ×24 |
mnożnik TURBO dla dwóch rdzeni | ×22 | ×25 |
mnożnik TURBO dla jednego rdzenia | ×23 | ×25 |
aktywne łącza QPI | 1 | 2 |
prędkość QPI | 4,8 GT/s | 6,4 GT/s |
stepping | C0 | D0 |
TDP | 130 W | 95 W |
VID (zakres) | 0,8–1,375 V | 0,75–1,35 V |
Jak widać, są dwie główne różnice: liczba i prędkość łączy QPI oraz parametry termiczne. Mniejsze TDP i napięcie zasilania w nowym steppingu (D0) pozwoliły inżynierom Intela powiększyć zakres mnożników TURBO. Oczywiście procesor serwerowy ma dwa szybsze łącza QPI. Jak można się domyślić, procesory Gainestown mogą działać pojedynczo w płytach desktopowych – drugie łącze QPI po prostu nie jest wtedy uruchamiane. Za to procesory Core i7 nie mogą działać w konfiguracjach dwuprocesorowych – nie mają drugiego łącza QPI i nie mogłyby nawet pobrać danych z pamięci drugiego procesora.
Co więcej, niektóre Xeony serii 5000 stały się ostatnio popularne wśród entuzjastów podkręcania, bo wszystkie są wykonane w znacznie lepiej podkręcającym się steppingu D0. Trafienie na i7-920 D0 jest dość trudne, a kupując Xeona, ma się gwarancję nowego steppingu.
Czym się różni serwer od komputera osobistego?
Mimo wielkich podobieństw między podstawowymi elementami komputera desktopy różnią się znacznie od sprzętu serwerowego. Procesory są prawie identyczne, chipsety też – na czym więc polega różnica? Głównie na sprzęcie peryferyjnym, który w obu grupach komputerów jest dostosowany do innych potrzeb, i we wsparciu ze strony producenta. Wymienimy w skrócie główne różnice.
Niezawodność
Większość różnic w sprzęcie wynika z różnych wymagań stawianych serwerom i desktopom. Serwery najczęściej pełnią funkcje krytyczne dla biznesu. Nieprzerwane działanie i niska awaryjność stają się bardzo ważnymi zaletami, kiedy stawką są nowi klienci, wielkie sumy pieniędzy czy poufność danych. Wymagania stawiane serwerom przyjęło się określać skrótem RAS (ang. Reliability, Availability, Serviceability – pewność, dostępność, naprawialność). Pewność oznacza, że w razie wystąpienia błędu (np. przekłamania danych w pamięci) maszyna nie kontynuuje obliczeń i nie zwraca fałszywych wyników, tylko powtarza obliczenia lub naprawia błąd, albo przynajmniej informuje o jego wystąpieniu. Dostępność to stosunek czasu, przez jaki maszyna działała, do czasu, przez jaki powinna działać. Dostępność rzędu 99,7% oznacza, że w ciągu roku maszyna była niedostępna w sumie przez około 24 godziny. Naprawialność oznacza możliwość zminimalizowania lub szybkiego usunięcia skutków ewentualnej awarii. Podstawowym i najłatwiejszym sposobem zapewnienia naprawialności jest redundancja. Oznacza to, że każdy ważny i mogący się zepsuć element jest dublowany – w razie awarii drugi element przejmuje funkcje uszkodzonego. Dyski łączy się w macierze RAID przechowujące wszystkie dane w dwóch kopiach, na dwóch oddzielnych napędach. W obudowach serwerowych stosuje się po dwa zasilacze, często są również dwie karty sieciowe. Redundancję uzupełnia wymiana „na gorąco” (ang. hot swap). Uszkodzone podzespoły – najczęściej są to dyski – można wymieniać w trakcie pracy serwera: wyciągamy stary dysk, wkładamy nowy, macierz sama się odtwarza, i awaria zostaje usunięta bez przerwy w działaniu. Ostatni sposób, tak zwany hot spare, dotyczy minimalizacji skutków awarii. Polega na umieszczeniu w serwerowni drugiej, identycznej maszyny – w razie krytycznej awarii głównej wystarczy przełożyć dyski i uruchomić system od nowa na drugim serwerze.
Ze względu na poziom niezawodności (RAS) można podzielić cały rynek serwerów. Są maszyny najmniej istotne, w których stosuje się tylko podstawowe zabezpieczenia. Te najmniej różnią się od desktopów: stosuje się podzespoły podobne do desktopowych, w razie awarii dopuszcza się wyłączenie serwera na czas jego naprawy. Dalej są maszyny o większej wydajności i niezawodności – najczęściej z więcej niż dwoma procesorami, dużą ilością pamięci operacyjnej, działające pod kontrolą biznesowych wersji Linuksa albo Windowsów. Najwęższą grupę stanowią serwery, których nieprzerwane działanie jest dla ich właścicieli absolutnie konieczne. Tam stosuje się najczęściej procesory o architekturze RISC lub Itanium. Ich oprogramowanie najczęściej nie ma uniwersalności zwykłych Windowsów czy Linuksa, za to jest dostosowane do zadań, które maszyna ma wykonywać.
Oczywiście wyposażenie serwera w dwa zasilacze kosztuje dwa razy więcej, dlatego większość podzespołów ma funkcje zmniejszające ryzyko awarii. Wymienimy krótko niektóre różnice między komponentami desktopowymi i serwerowymi.
Płyty główne
Płyty do desktopów są projektowane ze szczególnym uwzględnieniem funkcjonalności i atrakcyjności dla nabywcy. W serwerach ważniejsza jest niezawodność. Taki komputer bardzo często działa bez przerwy przez wiele tygodni lub miesięcy, co stawia dodatkowe wymagania układom zasilania i chłodzenia na płycie głównej. Większość technologii znanych z płyt „dla graczy” po raz pierwszy pojawiła się w serwerach, na przykład kondensatory polimerowe lub ceramiczne o podwyższonej trwałości czy chłodzenie ciepłowodami. Za to w serwerach często brakuje elementu każdego desktopa: złącza PCI Express ×16. Wydajnych kart graficznych używa się w serwerach rzadko, a jeśli już, to do obliczeń – a tam opóźnienie w transferze ma niewielkie znaczenie. Kontrolery RAID, karty sieciowe i tym podobne urządzenia zadowalają się PCI-E ×8 lub ×4.
Pamięć operacyjna
Pamięć w serwerach jest na ogół wolniejsza, ale ma dodatkowe funkcje zwiększające niezawodność. W Xeonach 5500 stosuje się moduły ECC-R, które za pomocą sum kontrolnych sprawdzają poprawność danych. W starszych serwerach stosowane były moduły FB-DIMM (ang. Fully Buffered). Zarówno FB-DIMM, jak i ECC pobierają więcej mocy i wydzielają więcej ciepła od zwykłych desktopowych DDR2/3.
Karty rozszerzeń
Jak już wspomnieliśmy, w serwerach rzadko używa się wydajnych kart graficznych. W większości wypadków układ graficzny jest zintegrowany z płytą główną, w chipsecie albo jako osobny chip. Powszechnie stosowane są sprzętowe kontrolery RAID, mające własny procesor i pamięć podręczną (układy DDR2 zamontowane na płytce kontrolera albo sloty pamięci DDR2). Często znajdziemy w serwerze samodzielną kartę sieciową, zastępującą zintegrowane sieciówki znane z desktopów.
Obudowy
Serwery montuje się w dwóch głównych rodzajach obudów: stojących (ang. tower) lub poziomych, montowanych w szafach (ang. rack). Obudowy są przystosowane do wymiany „na gorąco” dysków i zasilaczy. Często mają możliwość zamknięcia na klucz oraz czujnik otwarcia obudowy. Systemy chłodzenia i wymiary płyt głównych również się różnią; chłodzenie często wspomagają specjalne tunele kierujące powietrze na procesory. Głośność wentylatorów jest sprawą drugorzędną; ważniejsze są niskie temperatury, nawet w ciasnocie (nawet kilkadziesiąt serwerów w jednej szafie typu rack).
Wsparcie techniczne
Od producentów sprzętu serwerowego wymaga się zawsze lepszego wsparcia technicznego niż w przypadku podzespołów desktopowych. Spora część ceny każdego komponentu wynika z długiej gwarancji. Klienci biznesowi wymagają również dobrej obsługi w różnych systemach operacyjnych – o ile użytkownik domowy często ma problem ze znalezieniem sterowników dla Linuksa, to sprzęt serwerowy bez linuksowych sterowników jest wielką rzadkością. Ponadto wszystkie nowe części przechodzą znacznie bardziej rygorystyczne testy przed skierowaniem do sprzedaży. W serwerach nie mogą przecież zdarzać się niedziałające opcje w BIOS-ie albo niekompatybilność płyty głównej z jakąś kartą rozszerzeń.
Dell PowerEdge T610
Do testów otrzymaliśmy serwer firmy Dell – PowerEdge T610. Model T610 nie oznacza konkretnej konfiguracji sprzętowej: zamawiając go, można wybrać różne komponenty z określonej przez Della puli. Można wybrać obudowę w wersji stojącej lub rackowej, liczbę procesorów (jeden lub dwa), ilość pamięci operacyjnej, system operacyjny, mocniejszy lub słabszy zasilacz (jeden lub dwa), podsystem dyskowy, karty sieciowe i inne komponenty. Dokładne informacje o PowerEdge T610 oraz dostępne możliwości konfiguracji można znaleźć na stronie produktu.
Komputer, który do nas trafił, był wyposażony w dwa procesory Xeon L5520. Jest to najwyższy model w energooszczędnej serii L55xx. Dokładną listę części zamieszczamy w tabelce.
Dell PowerEdge T610 | |
---|---|
procesor #1 | Xeon L5520 |
procesor #1 | Xeon L5520 |
pamięć operacyjna | 4x 2 GB DDR3-1066 7-7-7-20 CR1 |
karty sieciowe | 2x Intel(R) PRO/1000 PT Dual Port Server Adapter |
karta graficzna | Matrox G200 (zintegrowana) |
dyski twarde | 4x Seagate Savvio 10K.3 146 GB RAID 1+0 |
obudowa | stojąca (tower) |
zasilacze | 2x Energy Smart Power Supply 570 W |
Konfiguracja została dobrana z myślą o wykorzystaniu jako serwer w małej firmie lub jako stacja robocza dla architekta. Jedyne, co nie pasuje do reszty, to 8 GB RAM-u – sprzęt tej klasy aż prosi się o trzy razy więcej, szczególnie że procesory mają trzykanałowe kontrolery pamięci.
Sposób testowania
Przed napisaniem niniejszego artykułu stanęliśmy przed nie lada problemem. Do tej pory zajmowaliśmy się głównie sprzętem dla użytkowników domowych. Nasze doświadczenie w pracy z serwerami jest nieporównywalnie mniejsze. Przetestowanie takiej maszyny wymaga stworzenia warunków, w których w założeniu ma ona działać. Na przykład test wydajności wirtualizacji wymaga zbudowania sieci z tyloma identycznymi komputerami, ile ma być maszyn wirtualnych. W redakcji nie mieliśmy warunków koniecznych do przeprowadzenia kilku ważnych testów, na przykład właśnie wirtualizacji albo wydajności podsystemu dyskowego.
Drugim ważnym problemem jest oprogramowanie. Większość popularnych programów testowych nie skaluje się z liczbą wątków większą niż dwa albo cztery, a co dopiero z 16. Dobre wykorzystanie potencjału 16-wątkowej maszyny wymaga starannego przygotowania systemu operacyjnego i oprogramowania.
W związku z tymi dwoma poważnymi trudnościami wyniki poniższych testów nie zawsze świadczą bezpośrednio o mocy użytych procesorów. Należy wziąć pod uwagę ich niedokładność.
Główne testy wydajności przeprowadziliśmy pod kontrolą systemu operacyjnego Windows Server 2008 R2. Jest to wersja beta następcy Servera 2008, oparta na jądrze Windows 7 zamiast Visty. Wyjątkowo przeprowadziliśmy też pewne testy w systemie Linux. Użyliśmy dystrybucji Kubuntu 9.04 z jądrem 2.6.28-11-generic x86-64, ze środowiskiem graficznym KDE 4.2.2 i kompilatorem GCC 4.3.3, zainstalowanej na partycji z systemem plików ext3. Użyte programy testowe pochodzą z Phoronix Test Suite – zbioru najpopularniejszych benchmarków linuksowych przygotowanego przez redakcję serwisu Phoronix.
W tabelce poniżej podajemy parametry techniczne procesorów Xeon L5520 oraz procesorów użytych w porównaniu, reprezentujących inne popularne architektury serwerowe. Wyniki procesorów Xeon L7455, Xeon X5470 (Harpertown) i Opteron 2360SE pochodzą z bazy wyników firmy SiSoftware, producentów Sandry 2008. Core i7-920* na wykresach oznacza, że procesor działał z częstotliwością taką samą jak Xeon L5520.
Xeon L5520 | Core i7-920 | Xeon L7455 | Opteron 2360 SE | |
---|---|---|---|---|
proces technologiczny | 45 nm | 45 nm | 45 nm | 65 nm |
nazwa kodowa | Gainestown | Bloomfield | Dunnington | Barcelona |
pamięć podręczna L2 dla każdego (każdej pary*) rdzenia | 256 kB | 256 kB | 3072 kB* | 512 kB |
całkowita pamięć podręczna L2 | 1 MB | 1 MB | 9 MB | 2 MB |
pamięć podręczna L3 | 8 MB | 8 MB | 12 MB | 2 MB |
taktowanie | 2,26 GHz | 2,66 GHz | 2,13 GHz | 2,5 GHz |
częstotliwość zegara referencyjnego/FSB | 133 MHz | 133 MHz | 266 MHz | 200 MHz |
łącze międzyprocesorowe | 2x QuickPath, 58,6 GB/s | 1x QuickPath, 29,3 GB/s | FSB, 8,5 GB/s | 2x HyperTransport, 32 GB/s |
TDP (ACP*) | 80 W | 130 W | 65 W | 105 W |
Testy syntetyczne – Sandra
Zaczęliśmy jak zwykle od testów syntetycznych w Sandrze 2009. Wyniki z Sandry nie reprezentują co prawda wydajności w konkretnych zastosowaniach praktycznych, ale pozwalają przewidzieć i wyjaśnić wyniki z aplikacji użytkowych.
Wydajność arytmetyczna nowych Xeonów jest więcej niż dobra: osiem rdzeni osiąga wyniki prawie równie dobre co 12 podobnie taktowanych (2133 MHz) rdzeni w procesorach Dunnington. Wydajność jest mniej więcej dwa razy większa od pojedynczego i7-920 z odpowiednio obniżonym taktowaniem.
Zmierzyliśmy następnie wydajność podsystemu pamięci.
Widać tutaj największą wadę serwerowej pamięci. Dwa moduły 1066 MHz na procesor nie mają szans z trzykanałowym zestawem 1600 MHz. Mimo to przepustowość i opóźnienia są znacznie lepsze niż przy zastosowaniu tych samych modułów na platformie Xeon starszej generacji.
Testy syntetyczne – Sandra, cd.
Następnie zmierzyliśmy przepustowość i opóźnienie w komunikacji między poszczególnymi rdzeniami procesorów.
Ponieważ komunikacja między rdzeniami procesorów odbywa się przez łącze QPI, maszyna z dwoma Xeonami ma większe opóźnienia niż komunikujący się wewnętrznie jeden procesor. Większa przepustowość jest bezpośrednim skutkiem większej liczby rdzeni – można przesyłać dane jednocześnie większą liczbą dróg niż w systemie jednoprocesorowym.
Testy syntetyczne – kryptografia
Następnie przeprowadziliśmy testy syntetyczne kryptografii.
W szyfrowaniu wydajność nie jest już oszałamiająca, ale jest to skutkiem małej ilości pamięci RAM, a nie małej wydajności obliczeniowej procesorów. Szyfrowanie plików Xeony L5520 wykonują równie szybko jak Xeony w architekturze Core 2. W funkcjach skrótu T610 jest nieco wolniejszy od architektury AMD Opteron i Xeon (Harpertown).
Testy rzeczywiste – kodowanie wideo, renderowanie
Kolejnym testem było kodowanie wideo.
Algorytm kodeka H.264 ma wyraźne problemy ze skalowaniem powyżej 16 wątków – o ile w pierwszym przejściu dwa procesory są o wiele szybsze od jednego, to w drugim zawodzi już podział zadań między wątki, a w konsekwencji kodowanie trwa dłużej niż na maszynie jednoprocesorowej.
Sprawdziliśmy następnie, jak T610 radzi sobie z renderowaniem scen 3D.
Cinebench również ma problemy ze skalowaniem – mimo że umie prowadzić obliczenia w 16 wątkach, to robi to tylko około 10 razy szybciej niż w jednym wątku.
Sprawdziliśmy też wydajność w śledzeniu promieni.
Algorytm POV-Raya jest bardzo dobrze przystosowany do obliczeń równoległych: dwa procesory są ponad dwa razy szybsze od jednego o odpowiednio obniżonym taktowaniu (przyspieszenie jest przeszło dwukrotne, bo i7-920* nie ma włączonego TURBO).
Testy rzeczywiste – Java
Przeprowadziliśmy również testy popularnych obliczeń w Javie, w środowisku linuksowym. Niestety, żaden z wykorzystanych programów nie skaluje się dobrze z taką liczbą wątków.
O ile w renderowaniu programem Sunflow widać jeszcze jakieś ślady skalowania powyżej ośmiu wątków, to SciMark jest wyraźnie ograniczony albo niedoskonałością algorytmu, albo sprawnością maszyny wirtualnej Javy. Szyfrowanie programem Bork jest spowolnione przez słaby podsystem pamięci.
Testy rzeczywiste – kompilacja
Zmierzyliśmy też czas kompilacji serwera Apache i PHP za pomocą kompilatora GCC 4.3.3.
Mimo zastosowania polecenia wymuszającego działanie wielowątkowe, GCC nie potrafił obciążyć więcej niż ośmiu procesorów logicznych. To w połączeniu z powolnymi modułami pamięci spowodowało, że kompilacja Apache'a trwała dłużej niż na jednym procesorze, a PHP – niewiele krócej.
Podsumowanie
Najważniejszym wnioskiem, jaki można wyciągnąć z tych testów, jest ogromna waga dobrego oprogramowania. Można mieć maszynę o ogromnej wydajności teoretycznej, co pokazują testy syntetyczne, i nie zyskać nic w praktyce, jeśli oprogramowanie nie jest odpowiednio przygotowane. Architektura Nehalem ma ogromny potencjał w zastosowaniach serwerowych, ale żeby go wykorzystać, trzeba mieć odpowiedni kod.
Ponieważ od premiery Gainestownów minęło już trochę czasu, można zobaczyć pierwsze zmiany na rynku wywołane ich pojawieniem się. Intel w materiałach prasowych nie omieszkał pochwalić się wspaniałymi wynikami: w momencie premiery już 73 producentów oferowało w sumie 230 różnych maszyn. Ponad 100 programów komercyjnych zostało specjalnie zoptymalizowanych pod kątem architektury Nehalem. Intel spodziewa się, że do sierpnia ponad połowa sprzedawanych serwerów dwuprocesorowych będzie miała procesory Gainestown. Bez dokładnego wglądu w rynek serwerów nie pozostaje nam nic innego, jak uwierzyć w te dane i zastanowić się, co jest dla klientów szczególnie atrakcyjne w tej platformie.
Trzeba zdać sobie sprawę, że potencjalni nabywcy serwerów podejmują decyzje na podstawie innych przesłanek niż użytkownicy domowi. Cykl życia serwera trwa znacznie dłużej niż przeciętnego desktopa, a każda wydana na niego złotówka jest skrupulatnie liczona. Spójrzmy na ten slajd z prezentacji marketingowej Intela:
Doskonale ilustruje on istotne dla klientów biznesowych sprawy. Według Intela zamiana starych serwerów z 2005 roku na nowe przy zachowaniu tej samej wydajności zmniejsza koszt energii elektrycznej i zajętą powierzchnię pomieszczeń serwerowni o ok. 90%. Takie oszczędności powodują, że koszt serwera zwraca się całkowicie po ośmiu miesiącach. Dodatkowo zmniejsza się koszt licencji na oprogramowanie, które często wymaga jednej licencji na każdy procesor. W ten sposób Intel chce przekonać klientów, że nawet w trudnej sytuacji ekonomicznej najlepszą metodą zmniejszenia kosztów są odpowiednie inwestycje. Oczywiście, dotyczy to też serwerów konkurencji, ale jest to zjawisko nieobecne w przypadku desktopów.
Co dalej z Xeonami?
Na Gainestownach nie kończą się Intelowskie plany zdominowania rynku serwerów. W przygotowaniu są nowe procesory w mikroarchitekturze Nehalem, o nazwie kodowej Beckton. Mają być przeznaczone do serwerów więcej niż dwuprocesorowych. Na jednym jądrze krzemowym ma się znajdować osiem faktycznych rdzeni, każdy z Hyper-threadingiem, co da 16 wątków na procesor. Oprócz tego układy będą mieć oczywiście zintegrowany kontroler pamięci i cztery terminale QPI. Chip będzie prawdziwie monstrualny: ma się składać z ponad 2,3 mld tranzystorów.
Cztery łącza QPI pozwolą na tworzenie czteropodstawkowych konfiguracji, w których każdy procesor będzie połączony ze wszystkimi pozostałymi i z własnym IOH (mostkiem północnym X58). Możliwe będą też konfiguracje o ośmiu i więcej procesorach, w których jednak połączenie między niektórymi układami nie będzie bezpośrednie, ale będzie przebiegało przez trzeci procesor.
Co ciekawe, Intel proponuje tworzenie systemów większych niż ośmioprocesorowe przy użyciu „OEM Node Controllers” – prawdopodobnie nowych układów IOH, mających więcej łączy QPI.
Dodatkowo do serwerów powróci technologia buforowania pamięci, ale nie w postaci modułów FB-DIMM. Funkcje buforowania mają przejąć nowe układy – „Intel Scalable Memory Interconnect with Buffers”. Za buforem będą podłączone zwyczajne moduły DDR3, ewentualnie z obsługą sum kontrolnych ECC. Prawdopodobnie drogie, wyspecjalizowane FB-DIMM-y odejdą w niepamięć, a w platformach o wysokim RAS (ang. Reliability, Availability, Serviceability) będzie się stosować właśnie takie dodatkowe układy. Powrót buforowania wskazuje, co Intel chce osiągnąć Becktonami. Dodatkowe funkcje, takie jak MCA (ang. Machine Check Architecture – sposób raportowania błędów sprzętowych systemowi operacyjnemu), mają podnieść RAS platform z Becktonem do poziomu wyspecjalizowanych platform w architekturach Itanium, RISC i SPARC, które do tej pory miały niemalże monopol w zastosowaniach wymagających najwyższej niezawodności.
W ten sposób Intel chce powoli zmniejszyć udział procesorów RISC w rynku na rzecz tańszych, a równie dobrych Becktonów. Jak mu się to uda i jaki będzie wpływ Becktonów na rynek rozwiązań serwerowych – zaczniemy się przekonywać prawdopodobnie na początku przyszłego roku. Intel przymierza się do rozpoczęcia produkcji ośmiordzeniowych Nehalemów w drugiej połowie tego roku, ale upłynie trochę czasu, zanim oparte na nich produkty trafią na rynek. Tymczasem czekamy na posunięcia konkurencji, zarówno w segmencie RISC, jak i x86.