Zainteresowałem się oprogramowaniem rozpoznającym tekst/pismo i chciałbym korzystać z dobrego lecz bezpłatnego narzędzia. Przedstawię w tym wpisie programy, które nie są zaawansowane, ale podstawową funkcję rozpoznawania posiadają. Będę porównywał swój wynik do znanego i cenionego programu ABBYY FineReader. Jaki jest rezultat moich poszukiwań?
Zanim jednak będziesz chciał wykorzystać któryś z przedstawionych przeze mnie programów, upewnij się że jakość dokumentów (skanów) które zechcesz przeczytać mają duży DPI.
Jak sprawdzić DPI zdjęcia?
Kliknij prawym przyciskiem myszy na zeskanowany obraz i wybierz szczegóły.
Rozdzielczość w poziomie i pionie w tym przypadku to 96 dpi czyli ok.
IrfanView (freeware)
Używam ten program jako domyślną przeglądarkę plików graficznych. Jest darmowy i można skorzystać z wielu pluginów, które urozmaicają jego funkcjonalność o czym pisałem już wcześniej (pobieranie gier flash na dysk). Dodatek rozpoznawania tekstu też znalazłem:
irfan view PL — download
plugin OCR — download
Po zainstalowaniu programu i dodatku sprawdziłem jak to działa na zwykłym screenie czyli pliku jpg. Wciskam F9 aby uruchomić plugina. Zaznaczam tekst, który ma mi odczytać. Rezultat:
Cóż za rozczarowanie.. No ale mimo wszystko polecam ten program jako przeglądarkę plików graficznych :)
√ bezpłatny — to raczej jedyna dobra strona, choć przeznaczenie tego programu jest inne
x — plugin nie radzi sobie z rozpoznawaniem textu
x — “czyta” tylko tekst w języku angielskim
FreeOCR.net 2.6(freeware)
Wbudowany silnik do przetworzenia informacji wymaga zdjęcia w rozdzielczości min. 200 dpi i nie jest przystosowany do czytania obrazów z zrzutów ekranu dostępnych w rozdzielczości 72 dpi. Aplikacja bezproblemowo odczytuje zeskanowany tekst jak i pliki graficzne.
Więc sprawdźmy to na screenie, z którym nie mógł sobie poradzić poprzedni program.
FreeOCR.net 2.6 download
Jak widać wszystko odczytał poprawnie.
√ bezpłatny
x — tekst rozpoznaje tylko w języku angielskim — problem z polskimi znakami
ABBYY FineReader Professional 10 (trial)
Zdecydowanym liderem rozpoznawania tekstu jest ABBY FineReader. Program nie jest bezpłatny(599zł), ale za to możliwości jakie oferuje są ogromne. Potrafi rozczytać zeskanowane dokumenty, cyfrowe zdjęcia dokumentów i pliki PDF do postaci edytowalnej, czyli wyeksportuje ładnie do worda. Ma sporo zalet, ale najbardziej przydatne zwykłemu użytkownikowi wypisze:
√ bardzo wysoka skuteczność rozpoznawania tekstu, także gorszej jakości
√ rozpoznawanie dokumentów w języku polskim i nie tylko, najnowsza wersja odczyta nawet cyrylicę, a ilość języków to aż 179!
√ co ważne … rozpoznany tekst jest wyeksportowany z zachowaniem układu, więc akapity, tabele, grafika itp pozostają tak jak w oryginalnym dokumencie
Zobaczmy jak nasz tekst przeczytał ABBY:
Idealnie, choć screen nieco pomniejszony, ale export do pliku worda wygląda tak:
Podsumowanie
Domyślam się, że artykuł dość ogólny, ale różnicę widać. Polecam ABBY FineReader, gdyż jest to profesjonalne narzędzie do pracy nad rozpoznawaniem tekstu. Choć FreeOCR też poradził sobie z rozpoznaniem, ale nie potrafi czytać polskich znaków wstawiając w ich miejsca przypadkowe literki.
Jeżeli znacie jeszcze jakieś godne polecenia programy OCR to napiszcie w komentarzach.
Popularity: 2% [?]








No gratuluję choć to raczej reklama produktu Abby i nic poza tym. ;-(