Choć formalnie IDF zaczyna się dopiero jutro, tęgie głowy z Santa Clara nie mogły się powstrzymać, żeby już dziś nie pochwalić się swoimi osiągnięciami. Nie jest łatwo przyciągnąć dziennikarzy do sali konferencyjnej w niedzielne popołudnie, nawet jeśli jest się Intelem. Ale tym razem udało się zadziwić publikę. Konferencję rozpoczęło przemówienie pani Genevieve Bell, z zawodu... antropologa.
Krzem na końcu
Co robi antropolog w Intelu? To samo co wszędzie: bada zachowania i zwyczaje ludzi. Wbrew pozorom jest to jeden z najważniejszych problemów, przed jakimi staje Intel (i chyba wszyscy producenci sprzętu). Zanim ktokolwiek pomyśli o projektowaniu krzemu, jednostek logicznych, nowych procesów technologicznych, trzeba mieć powód, żeby to wszystko robić. Trzeba zastanowić się, czego potrzebują lub chcą ludzie, zanim zacznie się myśleć, jak im to dać. Tu do akcji wkracza Pani Bell.
Jak sama przyznała, jej głównym zadaniem jest pilnowanie, żeby produktów Intela dało się używać. Nie ma tu miejsca na szczegóły techniczne: ludzie chcą mieć coś łatwego w użyciu. Nie interesuje ich wydajność, zestaw instrukcji, części systemu SoC. Zespół nauk społecznych w Intelu kładzie nacisk na „experience” – doświadczenia użytkownika. Ma być zachęcająco, bez trudności technicznych, które trzeba by pokonać, zanim wykona się to, do czego służy urządzenie. Najpierw bada się potencjalny „scenariusz” użytkowania, potem projektuje interfejsy, a dopiero na końcu bierze się te dane pod uwagę przy projektowaniu układów scalonych. Dopiero wtedy wiadomo, czy na przykład nie przydałaby się w mikroprocesorze dodatkowa jednostka wyspecjalizowana w odszumianiu sygnału. Podczas prezentacji skupiono się głównie na interakcji człowieka z systemami komputerowymi. Systemy komputerowe to nie tylko PC – już dziś jest ich pełno w urządzeniach przenośnych, telewizorach, samochodach.
Według Intela głównym problemem do rozwiązania w interakcji człowiek-komputer jest rozpoznawanie obrazów. Pokazano kilka przykładów potencjalnych zastosowań tej techniki.
OASIS
Prototypowe urządzenie pozwala zamienić dowolną płaską powierzchnię w „ekran dotykowy”.
Tutaj zaprezentowano je w prototypowej kuchni. Kamera obserwuje blat kuchenny. Jeśli w polu widzenia znajdzie się obiekt, który oprogramowanie potrafi rozpoznać, projektor rzuca na blat interfejs pozwalający na interakcję z tym obiektem. Kamera obserwuje blat i śledzi ruch dłoni, co daje podobny efekt, jak gdyby blat był ekranem dotykowym.
Obok banana wyświetla się menu, z którego można wybrać na przykład przepisy na potrawy zawierające banany, dodać banany do listy zakupów... Może się to wydawać bez sensu: żadna gospodyni domowa nie będzie przecież macać blatu, jeśli przepisy i listę zakupów ma w głowie. Ale to tylko demonstracja jednego z możliwych zastosowań. Nam wydaje się, że podobne urządzenie znacznie bardziej przydatne byłoby w salach konferencyjnych, lub nawet w szkołach, zamiast tablicy, kredy i rzutnika przezroczy. Rozpoznawanie obrazu wykonywało oprogramowanie zainstalowane na zwykłym, średniej klasy laptopie; może nie będziemy musieli długo czekać, aż podobna technika się upowszechni?
Zastosowania rozpoznawania obrazu
W następnym przykładzie oprogramowanie zainstalowane na niewielkim netbooku pomaga nauczycielowi przeprowadzić z dziećmi proste ćwiczenia matematyczne.
Zadanie: odliczyć 16 centów i przesunąć potrzebne monety do wnętrza prostokąta. Kamera nad ekranem netbooka śledzi ruch dłoni i rozpoznaje monety po wielkości lub wzorze. Niestety, znów przykładowe zastosowanie nie jest jeszcze gotowe do użytku: interfejs jest niewygodny, szczególnie jeśli miałoby go używać dziecko w wieku szkolnym. Na pewno nie trafi to pod strzechy szybciej niż OASIS.
Wspomagana rzeczywistość
Racja, nie brzmi to tak dobrze jak angielski termin augmented reality, ale wygląda już prawie tak dobrze jak ćwierć wieku temu w Terminatorze. „Elektroniczny morderca” mógł na obraz z kamer zastępujących mu oczy nałożyć proste tekstowe informacje dotyczące tego obrazu.
We współczesnej wersji augmented reality pozwala rozpoznać budynek, któremu użytkownik robi zdjęcie urządzeniem przenośnym (tutaj jest to MID Compal z procesorem Atom). Jak to działa?
Załóżmy, że jesteśmy przy Golden Gate i robimy słynnemu mostowi zdjęcie swoim MID-em. Przenośny komputer wysyła serwerowi dane geolokacyjne z wbudowanego odbiornika GPS oraz samo zdjęcie. Serwer sprawdza, gdzie jesteśmy, i robi listę obiektów, które znajdują się w pobliżu i mogły znaleźć się na zdjęciu. Następnie przeszukuje bazę obrazów Wikipedii oraz Google'a w poszukiwaniu podobnych obrazów. Porównując zrobione zdjęcie z tymi zgromadzonymi w bazie danych, rozpoznaje obiekt i przesyła informacje o nim z powrotem do urządzenia. Wtedy nasz MID na żywo nakłada na obraz z kamery elementy interfejsu – w tym wypadku okienko z opisem z Wikipedii:
Niestety, prototypowy interfejs nie jest jeszcze ani wygodny, ani fotogeniczny :)
Rozpoznawanie twarzy
Pokazano również oprogramowanie do rozpoznawania twarzy na obrazie z kamery. W jednej wersji laptop rozpoznawał twarz użytkownika i automatycznie ładował jego profil i spersonalizowane ustawienia. W drugiej oprogramowanie rozpoznawało wiele twarzy i dość precyzyjnie określało ich położenie. W prezentowanym przykładzie kamera obserwuje wnętrze samochodu, a oprogramowanie steruje wieloma funkcjami: rozpoznaje kierowcę i wczytuje odpowiednie ustawienia wysokości fotela, pochylenia oparcia itp.; pozwala uruchomić samochód bez kluczyków i nie pozwala zrobić tego nieznanej osobie; rozpoznaje, gdzie siedzą poszczególne osoby, i wczytuje dla każdej z nich osobiste ustawienia klimatyzacji strefowej; pilnuje, żeby kierowca nie zasnął i żeby patrzył na drogę.
Znów przykład nie został zbyt fortunnie wybrany; znacznie bardziej przydatna wydaje nam się na przykład możliwość rozpoznawania poszukiwanych osób w tłumie wchodzących na masową imprezę lub przekraczających bramki na lotnisku.
Ray-tracing na zdalnej maszynie
Przedstawiono też dwie techniki niedotyczące rozpoznawania obrazu. W pierwszej demonstracji na laptopie ze średniej półki wyświetlano płynnie w rozdzielczości standardowej ekranu obraz renderowany z wykorzystaniem śledzenia promieni. Nieco zmodyfikowano fragment gry Return to Castle Wolfenstein, żeby pokazać liczone na bieżąco skomplikowane wielokrotne odbicia i monitory wyświetlające w grze obraz z innych miejsc na mapie.
Techniczna doskonałość obrazu robi wrażenie, ale laptop nie ma wystarczającej mocy obliczeniowej, żeby renderować coś podobnego. Obraz powstawał na kilku połączonych systemach Knights Ferry i po kompresji był przesyłany przez sieć do laptopa.
Pod nazwą roboczą Knights Ferry kryje się pierwsze wcielenie architektury Larrabee – karta PCI Express służąca do wykonywania obliczeń GPGPU (podobnie jak NVIDIA Tesla). Udało nam się dowiedzieć nieoficjalnie, że do wyświetlania „ray-trace'owanego” Return To Castle Wolfenstein z prędkością od 35 do 55 kl./s użyto czterech takich kart. Opóźnienie między ruchem myszki a reakcją obrazu na ekranie wynosiło około 100 ms, co uniemożliwia granie w większość gier. Najważniejsze w tej prezentacji wydało nam się przesyłanie obrazu na odległość. Jego renderowanie przy użyciu śledzenia promieni zdecydowanie nie jest dzisiaj optymalnym rozwiązaniem: zamiast czterech kart Larrabee łatwiej byłoby użyć zwyczajnych kart graficznych i tradycyjnej grafiki rastrowej. Efektem byłoby znacznie mniejsze zużycie energii i ładniejszy obraz. Cóż, inżynierowie Intela mają do rozwiązania problem opóźnienia; zanim to zrobią, być może ray-tracing będzie już rozsądnym wyborem.
Interaktywna telewizja
Interaktywna telewizja nie ma nic wspólnego z wpływaniem na treść emitowanych programów. Chodzi o wyposażenie telewizora w dodatkowe funkcje, takie jak przeglądanie internetu (typu: zobacz najświeższe ploteczki o aktorach, których oglądasz), korzystanie z usług społecznościowych (powiedz przyjaciołom, co oglądasz) itp. Wymaga to zastosowania interfejsu użytkownika znacznie bardziej skomplikowanego niż spotykane dziś w telewizorach czy dekoderach cyfrowej telewizji.
Prezentacja nie była bardzo efektowna, ale mimo to bardzo ważna. Na zeszłorocznym IDF-ie pokazano pierwszy krzemowy wafel z procesorem Intel Media CE4100. Jest to układ typu system on a chip, zawierający rdzeń Atom i dodatkowe podsystemy spełniające różne funkcje związane z obróbką obrazu. Dziś ten sam procesor jest stosowany w działającym produkcie: dekoderze telewizji cyfrowej. W zeszłym roku dowiedzieliśmy się na przykład, że procesor CE4100 ma specjalną jednostkę zajmującą się nakładaniem na siebie ruchomych obrazów, z których jeden częściowo pokrywa drugi. Dziś widzimy, jak wspomniane na początku badania antropologiczne wpłynęły na projektowanie samego krzemu. Ustalono, że użytkownikom podoba się interaktywny interfejs i że w takim razie trzeba zintegrować w mikroprocesorze jednostkę, która pozwoli programistom szybko i łatwo go wyświetlić.
Podsumowanie
Nie powinno być dla Was zaskoczeniem, że bardzo mała część pracowników Intela zajmuje się projektowaniem i produkcją półprzewodników. Choć większość dochodów pochodzi ze sprzedaży półprzewodników, to żeby sprzedać ich tak dużo, trzeba poświęcić sporo pracy na taką działalność, jak tworzenie oprogramowania czy badania socjologiczne.
W następnej części relacji z IDF 2010 – Sandy Bridge! Pozostańcie z nami!