ABBYY FineReader 10 Home Edition – program do optycznego rozpoznawania tekstu (OCR)

Instalacja i wymagania

ABBYY FineReader 10 Home Edition to tańsza i uboższa funkcjonalnie wersja programu FineReader 10 Professional. Home Edition w nazwie oznacza nie tylko to, że funkcjonalność została okrojona pod kątem zastosowań domowych. Z niższą ceną wiążą się także ograniczenia licencyjne. Tej wersji nie można używać w działalności komercyjnej – program jest wyłącznie do użytku domowego.

Wymagania FineReadera 10 Home Edition otrzymaliśmy od producenta w wersji elektronicznej, więc nie napiszemy o zawartości pudełka. Kilka słów na temat oficjalnych wymagań sprzętowych programu.

Wymagania ABBYY FineReader 10 Home Edition
System operacyjny:	Windows XP SP2/3, Windows Vista SP2 (32-bitowy i 64-bitowy), Windows 7 (32-bitowy i 64-bitowy)
Procesor:	1 GHz lub szybszy
Pamięć:	512 MB
Dysk twardy:	350 MB (tyle potrzeba do zainstalowania wszystkich składników programu) + 650 MB w trakcie działania programu (na pliki tymczasowe)
Połączenie z internetem:	Wymagane do przeprowadzenia szybkiej aktywacji
Urządzenia:	Skaner zgodny z TWAIN lub WIA, zdolny do skanowania z rozdzielczością co najmniej 200 dpi, aparat cyfrowy z matrycą co najmniej 2-megapikselową.
Rozdzielczość ekranu:	Co najmniej 1024×768; przy mniejszej rozdzielczości nie są widoczne wszystkie elementy interfejsu programu
Oprogramowanie:	Aby w pełni wykorzystać możliwości programu, należy go zainstalować na komputerze już zawierającym pakiet biurowy Microsoft Office oraz przynajmniej czytnik PDF.

Instalacja

Instalacja przebiega standardowo i ma postać kreatora. Zadaniem użytkownika jest wyłącznie zatwierdzanie kolejnych etapów.

Standardowe ustawienia programu integrują funkcje OCR z pakietem Microsoft Office oraz Eksploratorem Windows. Funkcje łączące FineReadera z MS Office są instalowane nawet w sytuacji, gdy pakietu biurowego Microsoft w ogóle nie ma na komputerze. Instalator zakłada, że użytkownik będzie miał MS Office. Bez zainstalowanego Worda czy Excela użyteczność FineReadera jest dość ograniczona. Co z tego, że będzie możliwość zeskanowania np. tabeli bezpośrednio do pliku w formacie XLSX, gdy w systemie nie będzie aplikacji, która umożliwiłaby edycję takiego pliku?

Na obrazku widać przykład praktyki stosowanej przez coraz większą liczbę producentów oprogramowania: funkcje gromadzące (teoretycznie anonimowe) dane dotyczące jego wykorzystywania. Można to wyłączyć. My pozostawiliśmy standardowe ustawienia.

Aby uzyskać pełną funkcjonalność programu, trzeba go aktywować. Jak widać, można to zrobić na kilka sposobów, oczywiście najwygodniej będzie skorzystać z internetu. Rozbawiła nas opcja drogą telefoniczną (powoli). Czyżby przewidywane zakłócenia na linii? Program aktywowaliśmy najszybszą metodą.

Po zakończeniu aktywacji wyświetlany jest formularz rejestracji. Nie jest obowiązkowa, ale dla zarejestrowanych użytkowników producent przewidział bonus: niewielki program ABBYY Screenshot Reader, łączący funkcje OCR z narzędziem do przechwytywania ekranu.

Pierwszy kontakt

Program uruchamia się automatycznie bezpośrednio po zakończeniu instalacji.

Trudno mieć jakiekolwiek zastrzeżenia co do przejrzystości interfejsu testowanej aplikacji. Wszystkie funkcje zostały zgrupowane w trzech kategoriach: Skanuj, Otwórz, Zdjęcie (widoczna jest jeszcze jedna karta, ale... byłoby lepiej, gdyby jej nie było, o czym za chwilę). Standardowo aktywna karta Skanuj zawiera listę pięciu zadań. Każde z nich jest na tyle czytelnie opisane, że trudno tu o jakąkolwiek pomyłkę.

Pozostałe dwie karty, Otwórz oraz Zdjęcie, zawierają identyczne zestawy zadań. Teoretycznie różni je źródło materiału, który ma być przetwarzany przez program, jednak w praktyce użytkownik, bez względu na to, czy wybierze zadanie z karty Otwórz czy z karty Zdjęcie, zostanie poproszony o wskazanie pliku graficznego.

Okno główne zawiera jeszcze jedną kartę, Więcej?. Niestety, nie znajdują się tu żadne użyteczne funkcje, wyświetlany jest tylko spis zalet droższej wersji. Oprócz tego w oknie tym, bez względu na to, która karta jest w danym momencie aktywna, wyświetlane są wskazówki. Nie wszystkie z nich dotyczą testowanego programu. Bardzo często użytkownik jest epatowany zachęcającymi hasłami, które jednak okazują się marketingowo-reklamowymi sloganami promującymi znacznie droższą wersję FineReader 10 Professional. Taki zabieg byłby zrozumiały w przypadku oprogramowania udostępnianego bezpłatnie (czy to w pełnej darmowej wersji, czy w próbnej). Wielu producentów wykorzystuje uboższe funkcjonalnie darmowe wersje swoich produktów jako nośniki reklamowe promujące edycje komercyjne. Jednak w produkcie komercyjnym jest to co najmniej irytujące. ABBYY FineReader 10 Home Edition kosztuje 200 zł. To dla wielu spora wyrwa w domowym budżecie i w ogóle na tyle duża kwota, aby można było oczekiwać braku haseł promujących inny produkt.

Korzystanie z programu

Aby korzystać z programu, nie trzeba mieć żadnego technicznego doświadczenia, oczywiście przy założeniu, że np. skaner został już wcześniej podłączony i odpowiednio zainstalowany w systemie.

Po wywołaniu np. zadania skanowania do Worda uaktywniany jest wbudowany w FineReadera moduł obsługi skanera. Zawiera on standardowe funkcje. Można wyświetlić podgląd z kadrowaniem skanowanego obszaru, zmienić rozdzielczość i tryb kolorów, ustawić jasność, wybrać rozmiar papieru itp. Jeżeli skanowane są dokumenty w standardowym formacie A4, nie trzeba zmieniać żadnych parametrów – standardowe ustawienie jest optymalne.

Po zeskanowaniu moduł skanera nie jest zamykany: program oczekuje na dalsze strony przetwarzanego dokumentu. Dopiero gdy zeskanowane zostaną wszystkie strony, należy zamknąć moduł, a program rozpocznie interpretowanie zgromadzonych materiałów. Po ich rozpoznaniu automatycznie zostanie wygenerowany i otworzony dokument w wybranym przez użytkownika formacie (na poniższym zrzucie ekranu jest to dokument Worda).

Niezależnie od tego w oknie głównym FineReadera wyświetlane są zeskanowane strony z zaznaczonymi obszarami tekstu, które są następnie przetwarzane przez mechanizm OCR. Dostępne opcje pozwalają samodzielnie określić, które obszary zeskanowanych dokumentów mają być poddawane konwersji. Pozwala to ominąć np. zbędne fragmenty dokumentu źródłowego jeszcze przed jego przetworzeniem na postać wynikową.

Zaletą programu jest liczba obsługiwanych i rozpoznawanych języków. Co prawda w trybie automatycznym umie on rozpoznać jedynie pięć (angielski, polski, niemiecki, hiszpański i francuski), ale można samodzielnie określić, w jakim języku został utworzony skanowany dokument. Taki ręczny wybór jest konieczny w przypadku, gdy dany dokument napisano w języku innym niż automatycznie rozpoznawana piątka (np. po rosyjsku). Ponadto program informuje o sytuacji, kiedy nie potrafi samoczynnie rozpoznać języka skanowanego dokumentu.

Wierność odwzorowania

Czytelny interfejs, prosta obsługa, duży zakres obsługiwanych języków – a co z wiernością odwzorowania oryginału? Czy wynikowy dokument w formacie PDF lub Microsoft Word odpowiada zeskanowanym oryginałom? Postanowiliśmy to sprawdzić na różnego typu dokumentach źródłowych.

Zaczęliśmy od najprostszego przypadku – dokumentu zawierającego wyłącznie tekst (kliknij, aby powiększyć). Zeskanowaliśmy jedną stronę informacji prasowej zawierającej sformatowany tekst (akapity, wytłuszczenia, listę punktowaną itp.). Dla utrudnienia wybraliśmy materiał faktycznie dwujęzyczny (informacja prasowa była w języku polskim, ale w jej treści znajdowały się zwroty anglojęzyczne, np. nazwa Bluetooth). FineReader 10 Home Edition poradził sobie z tym zadaniem bardzo dobrze. Po lewej stronie widać w pełni edytowalny rezultat przetwarzania – dokument Worda, po prawej – skan wyświetlany w oknie FineReadera. Treść dokumentu została rozpoznana bezbłędnie. W samym układzie dokumentu widoczne są pewne różnice, ale ogólny układ źródła został zachowany.

Następny test – strona zawierająca tekst oraz ilustrację. Tym razem zeskanowaliśmy dokument (kliknij, aby powiększyć), który oprócz sformatowanego tekstu zawierał prosty schemat blokowy. Schemat okazał się jednak zbyt dużym wyzwaniem dla programu przy standardowych parametrach skanowania i rozpoznawania. Po prawej widać zeskanowany oryginał z zaznaczonymi polami tekstu i grafiki (obszary zaznaczeń zostały automatycznie dobrane przez program), po lewej – uzyskany rezultat. Nie jest dobrze.

Podjęliśmy zatem następną próbę z wykorzystaniem tego samego materiału źródłowego, zmieniając tryb kolorów ze standardowo ustawionej skali szarości na pełny kolor. Rezultat (kliknij, aby powiększyć) okazał się znacznie lepszy: program prawidłowo przetworzył większą część schematu. Rozpoznanie tekstu przebiegło poprawnie, zmienił się jednak układ dokumentu. Po lewej widać rezultat przetwarzania, po prawej – zeskanowany oryginał z zaznaczonymi przez FineReadera polami tekstu (zielony kolor) i grafiki (czerwony kolor).

Pełna automatyka w przypadku dokumentów z elementami graficznymi nie zdaje egzaminu. FineReader pozwala jednak zmienić wstępnie wykryte obszary dokumentu i odpowiednio je zaklasyfikować (tekst, grafika itp.). Dopiero po ręcznym zaznaczeniu właściwych obszarów można uruchomić przetwarzanie i konwersję na wynikowy format. Ingerencja w proces przetwarzania daje, jak widać, wymierne korzyści: układ jest bliski oryginałowi, a schemat (grafika) zostaje przeniesiony bez żadnych „przeróbek”. Źródłowy dokument widać po prawej stronie, rezultat – po lewej (kliknij, aby powiększyć).

Następne zadanie polegało na rozpoznaniu tekstu z kilku zeskanowanych stron książki. FineReader poradził sobie z tym dobrze. Skanowaliśmy całe rozkładówki, jednak program umiejętnie rozdzielił tekst na strony, poprawnie rozpoznał obszary tekstu, uwzględniając numerację stron, formatowanie i inicjał. Jedynie w niektórych, mniej ostrych obszarach (blisko grzbietu książki) zdarzały się błędnie rozpoznane słowa. Wynikowy dokument jest widoczny po lewej stronie (kliknij, aby powiększyć).

Kolejny test to tabela skanowana do dokumentu Worda. Z jednej strony kolumny i wiersze zostały rozpoznane poprawnie, ponadto nie znaleźliśmy rażących błędów w tekście, z drugiej uzyskana w wyniku konwersji tabela wymaga poprawek, np. linii krawędziowych (kliknij, aby powiększyć).

A oto ta sama tabela zeskanowana i przekonwertowana na skoroszyt Excela (kliknij, aby powiększyć). Tym razem nie oczekiwaliśmy dokładnego odwzorowania układu graficznego źródłowego dokumentu, lecz poprawnego przeniesienia wartości i określenia ich typu w poszczególnych komórkach tabeli. Także z tym zadaniem program poradził sobie dobrze.

Na koniec publikacja naukowa. Zeskanowaliśmy stronę podręcznika do chemii (kliknij, aby powiększyć). FineReader zauważył co prawda niektóre elementy, ale uzyskany dokument Worda (po lewej) jest dość odległy od oryginału (po prawej). Bez ingerencji użytkownika nie obejdzie się.

Zapotrzebowanie na zasoby

ABBYY FineReader 10 Home Edition nie jest zbyt łakomy na zasoby sprzętowe komputera.

Zużycie pamięci alokowanej wyłącznie na potrzeby programu nie jest duże. Nawet podczas przetwarzania tekstu program użył jej mniej niż np. dowolna przeglądarka internetowa z wczytaną rozbudowaną witryną.

Uruchomiony program, który nie wykonuje żadnych działań zleconych przez użytkownika, teoretycznie nie powinien zużywać mocy obliczeniowej procesora. Mimo to FineReader w pewnym stopniu obciążał CPU także wtedy. Względnie małe obciążenie CPU podczas przetwarzania to z jednej strony zaleta (można bez większych problemów wykonywać na komputerze inne zadania), z drugiej zaś program nie umie w pełni wykorzystać układów wielordzeniowych.

Liczba działających w systemie procesów należących do testowanego programu nie zmienia się bez względu na jego obciążenie.

Proces konwersji, co zrozumiałe, wywołuje kilka dodatkowych wątków FineReadera.

Zestaw roboczy pamięci to pamięć fizyczna, która została przydzielona na potrzeby programu, ale może być współdzielona z innymi procesami. Wynik pokazuje, że FineReader ma stosunkowo niskie, jak na nowoczesny program, zapotrzebowanie na RAM. Oznacza to, że bez większych problemów można z niego korzystać także na starszych i gorzej wyposażonych komputerach.

Podsumowanie

Największe zalety programu to prostota użycia oraz obsługa wielu języków. 179 obsługiwanych dialektów z całego świata robi wrażenie. Z drugiej strony jest mało prawdopodobne, że ktoś w zastosowaniach domowych wykorzysta choć 10 procent tego potencjału. Zamiast tego wolelibyśmy lepsze wykorzystanie mocy współczesnych procesorów, tym bardziej że producent dysponuje kodem przetwarzającym dokumenty za pomocą wielu rdzeni, ale ta funkcja jest dostępna jedynie dla użytkowników znacznie droższej edycji Professional, irytująco promowanej za pomocą tej przetestowanej przez nas. Jeszcze raz podkreślamy: praktyka promowania bogatszej funkcjonalnie wersji jest w pełni zrozumiała w przypadku oprogramowania udostępnianego bezpłatnie, ale aktywowana aplikacja komercyjna powinna być wolna od takich zabiegów.

FineReader 10 Home Edition obsługuje nie tylko języki naturalne, ale też sztuczne (np. esperanto) oraz formalne (np. C/C++, Fortran, Java itp.), a także proste formuły chemiczne czy nietypowe formatowania (np. tekst w pionie). Program nie radzi sobie z ułamkami, pierwiastkami, całkami i innego typu znakami specjalnymi, więc do przetwarzania formuł matematycznych czy skomplikowanych wzorów fizycznych nie nadaje się. Bez większych problemów rozpoznaje także hiperłącza znajdujące się w dokumencie źródłowym i dość dobrze radzi sobie z odwzorowaniem podstawowych elementów układu strony, takich jak nagłówek, stopka i numer strony.

FineReader z pewnością przyda się każdemu, kto potrzebuje narzędzia umożliwiającego stosunkowo szybką zamianę wydrukowanych dokumentów na postać edytowalnych plików. Trzeba jednak byc świadomym jego ograniczeń. Proste dokumenty zawierające wyłącznie tekst są przetwarzane bardzo dobrze. Jednak wyrafinowane graficznie prace o skomplikowanym układzie, zawierające dużo schematów, grafik itp., to zbyt duże wyzwanie dla tego programu – sama automatyka przestaje w takich przypadkach wystarczać. Jednak FineReader daje pewną swobodę w określaniu elementów źródłowego dokumentu, które mają zostać przetworzone. W rezultacie nawet przy ręcznej zmianie ustawień cyfrową, edytowalną kopię dokumentu uzyskuje się szybciej, niż gdyby się go przepisało. Niestety, FineReader kosztuje niemało, zwłaszcza jak na program wyłącznie do użytku domowego.

ABBYY FineReader 10 Home Edition

Zalety	Wady
Prosta obsługa	Brak wbudowanego edytora, program mało użyteczny w przypadku braku zainstalowanego pakietu MS Office
Duża liczba obsługiwanych języków	Brak obsługi procesorów wielordzeniowych
Możliwość modyfikowania wyników analizy przed przetworzeniem dokumentów	Irytujące „podpowiedzi”, będące w istocie reklamami droższej wersji programu
Niewielkie wymagania sprzętowe

Do testów dostarczył: ABBYY

Cena w dniu publikacji (z VAT): 199 zł

Agnieszka Serafinowicz

Źródło:

Agnieszka Serafinowicz

Tematy: Word, Excel, PDF, ABBYY, FineReader