Home » News, software » Rozpoznawanie tekstu (OCR)

Rozpoznawanie tekstu (OCR)

Zain­te­re­so­wa­łem się opro­gra­mo­wa­niem roz­po­zna­ją­cym tekst/pismo i chciał­bym korzy­stać z dobrego lecz bez­płat­nego narzę­dzia. Przed­sta­wię w tym wpi­sie pro­gramy, które nie są zaawan­so­wane, ale pod­sta­wową funk­cję roz­po­zna­wa­nia posia­dają. Będę porów­ny­wał swój wynik do zna­nego i cenio­nego pro­gramu ABBYY Fine­Re­ader. Jaki jest rezul­tat moich poszukiwań?

Zanim jed­nak będziesz chciał wyko­rzy­stać któ­ryś z przed­sta­wio­nych przeze mnie pro­gra­mów, upew­nij się że jakość doku­men­tów (ska­nów) które zechcesz prze­czy­tać mają duży DPI.

Jed­nostka dpi opi­suje sto­pień odda­wa­nia szcze­gó­łów kształtu obrazu w ste­ro­wa­nych kom­pu­te­rowo urzą­dze­niach dru­ku­ją­cych, naświe­tla­ją­cych, a także wyci­na­ją­cych, gra­we­ru­ją­cych itp. Okre­śla gęstość moż­li­wych do uchwy­ce­nia szcze­gó­łów obrazu, który jest rozu­miany jako układ pla­mek, któ­rych środki pozo­stają w sta­łych odle­gło­ściach wzglę­dem sie­bie a uło­żone są w rzę­dach i kolum­nach. źródło: wiki­pie­dia

Jak spraw­dzić DPI zdjęcia?

Klik­nij pra­wym przy­ci­skiem myszy na zeska­no­wany obraz i wybierz szcze­góły.

Roz­dziel­czość w pozio­mie i pio­nie w tym przy­padku to 96 dpi czyli ok.

Irfa­nView  (freeware)

Uży­wam ten pro­gram jako domyślną prze­glą­darkę pli­ków gra­ficz­nych. Jest dar­mowy i można sko­rzy­stać z wielu plu­gi­nów, które uroz­ma­icają jego funk­cjo­nal­ność o czym pisa­łem już wcze­śniej (pobie­ra­nie gier flash na dysk). Doda­tek roz­po­zna­wa­nia tek­stu też znalazłem:

irfan view PL — down­load

plu­gin OCR — down­load

Po zain­sta­lo­wa­niu pro­gramu i dodatku spraw­dzi­łem jak to działa na zwy­kłym scre­enie czyli pliku jpg. Wci­skam F9 aby uru­cho­mić plu­gina. Zazna­czam tekst, który ma mi odczy­tać. Rezultat:

Cóż za roz­cza­ro­wa­nie.. No ale mimo wszystko pole­cam ten pro­gram jako prze­glą­darkę pli­ków graficznych :)

bez­płatny — to raczej jedyna dobra strona, choć prze­zna­cze­nie tego pro­gramu jest inne

x — plu­gin nie radzi sobie z roz­po­zna­wa­niem textu

x — “czyta” tylko tekst w języku angielskim


FreeOCR.net 2.6(freeware)

Wbu­do­wany sil­nik do prze­two­rze­nia infor­ma­cji wymaga zdję­cia w roz­dziel­czo­ści min. 200 dpi i nie jest przy­sto­so­wany do czy­ta­nia obra­zów z zrzu­tów ekranu dostęp­nych w roz­dziel­czo­ści 72 dpi. Apli­ka­cja bez­pro­ble­mowo odczy­tuje zeska­no­wany tekst jak i pliki graficzne.

Więc sprawdźmy to na scre­enie, z któ­rym nie mógł sobie pora­dzić poprzedni program.

FreeOCR.net 2.6 down­load

Jak widać wszystko odczy­tał poprawnie.

bez­płatny

x — tekst roz­po­znaje tylko w języku angiel­skim — pro­blem z pol­skimi znakami


ABBYY Fine­Re­ader Pro­fes­sio­nal 10 (trial)

Zde­cy­do­wa­nym lide­rem roz­po­zna­wa­nia tek­stu jest ABBY Fine­Re­ader. Pro­gram nie jest bez­płatny(599zł), ale za to moż­li­wo­ści jakie ofe­ruje są ogromne. Potrafi roz­czy­tać zeska­no­wane doku­menty, cyfrowe zdję­cia doku­men­tów i pliki PDF do postaci edy­to­wal­nej, czyli wyeks­por­tuje ładnie do worda. Ma sporo zalet, ale naj­bar­dziej przy­datne zwy­kłemu użyt­kow­ni­kowi wypisze:

bar­dzo wysoka sku­tecz­ność roz­po­zna­wa­nia tek­stu, także gor­szej jakości

roz­po­zna­wa­nie doku­men­tów w języku pol­skim i nie tylko, naj­now­sza wer­sja odczyta nawet cyry­licę, a ilość języ­ków to aż 179!

co ważne … roz­po­znany tekst jest wyeks­por­to­wany z zacho­wa­niem układu, więc aka­pity, tabele, gra­fika itp pozo­stają tak jak w ory­gi­nal­nym dokumencie

Zobaczmy jak nasz tekst prze­czy­tał ABBY:

Ide­al­nie, choć screen nieco pomniej­szony, ale export do pliku worda wygląda tak:

Pod­su­mo­wa­nie

Domy­ślam się, że arty­kuł dość ogólny, ale róż­nicę widać. Pole­cam ABBY Fine­Re­ader, gdyż jest to pro­fe­sjo­nalne narzę­dzie do pracy nad roz­po­zna­wa­niem tek­stu. Choć Fre­eOCR też pora­dził sobie z roz­po­zna­niem, ale nie potrafi czy­tać pol­skich zna­ków wsta­wia­jąc w ich miej­sca przy­pad­kowe literki.

Jeżeli zna­cie jesz­cze jakieś godne pole­ce­nia pro­gramy OCR to napisz­cie w komentarzach.

Popu­la­rity: 2% [?]

Tags: ,
forum.toin.pl

1 Comment

  1. dir /p pisze:

    No gra­tu­luję choć to raczej reklama pro­duktu Abby i nic poza tym. ;-(

Leave a Reply

Preview:

You might also like

Znaczniki HTML — prosta strona WWW
Aby można było stworzyć stronę WWW należy znać znaczniki HTML, które są dla przeglądarki, jak...
Przechwytywanie obrazu w treść
Czy zastanawiałeś się kiedykolwiek nad faktem przeniesienia tekstu czy widoku ze zdjęcia np do Worda,...
Pdf do word — konwerter
Mało jest programików, których konwersja działa poprawnie... przynajmniej jeśli chodzi o pliki pdf...
ASUS A8H drivers windows xp
Często widziałem jak na forach proszono o sterowniki do tego modelu. Na stronie producenta są dostępne,...
Grab this Widget
Copyright © 2008-2012 · toin.pl · All Rights Reserved · Posts · Comments
Designed by Theme Junkie · Powered by WordPress