Wymiana doświadczeń pomiędzy genealogami, dyskusje ogólne na tematy genealogiczne i historyczne, dane dotyczące parafii, archiwów, ciekawych stron, itd
Odpowiedz

Skanowanie gotyku i rozpoznawanie tekstu (OCR)

05 mar 2011, 10:49

Witam,

z pewnością wielu z Was używało programów typu OCR służących do rozpoznawania tekstu skanowanego i zapisywaniu go do plików tekstowych (lub np. Worda). Najpopularniejszym tego typu programem jest ABBYY Finereader radzący sobie doskonale z językiem polskim. Program, choć nie w najświeższych wersjach, często dołączany jest do skanerów. Można go kupić za kilkaset złotych lub przetestować za darmo.

Niewiele osób zdaje sobie jedak sprawę z istniejących darmowych alternatyw dla tego programu. Jedną z nich jest Free OCR, niestety nie wspiera on języka polskiego, ale też nie o tym chciałem pisać.
Kiedyś poszukiwałem programu potrafiącego rozpoznawać tekst drukowany gotycki (fraktura). Istniejąca specjalna wersja ABBYY Finereader XIX jest koszmarnie droga; ostatnio znalazłem jednak darmowy odpowiednik. Instalacja jest nieco uciążliwa, ale zamyka się właściwie w dwóch krokach.

1. Program FreeOCR można pobrać ze strony http://www.paperfile.net/ Bezpośredni link do programu to: http://www.paperfile.net/freeocr.exe
Program instalujemy w standardowy sposób.

2. Teraz należy wgrać dodatkowe pliki pozwalające na czytanie gotyku. Po ściągnięciu pliku http://wtg-gniazdo.org/upload/rozne/freeocr-fraktur.zip należy jego zawartość rozpakować i przegrać do katalogu C:\WINDOWS\TESSDATA (zakładając, że Windows znajduje się w katalogu C:\WINDOWS) i uruchomić (albo zrestartować) program FreeOCR.
Natępnie w programie wybieramy język "fra", wczytujemy plik do rozpoznawania (np. zapisany z jakiejś książki z WBC) i rozpoznajemy. Rezultaty są zaskakująco dobre.

Program niestety nie posiada polskiej wersji językowej, ale myślę, że każdy łatwo sobie poradzi. Wystarczy otworzyć plik (ikonka "Open" - krok 1) a następnie upewniwszy się, że ustawiony jest język rozpoznawania na "fra" (pole "OCR Language" - krok 2) kliknąć ikonkę z lupą ("OCR" - krok 3). Przed tym można jeszcze z prawego panelu skasować informacje po angielsku, bowiem w tym panelu pojawi się rezultat rozpoznawania tekstu (panel - zaznaczony na obrazku jako 4).

Obrazek

I to chyba tyle. Ciekawostka, ale być może komuś się przyda. Aha, nie muszę chyba dodawawć, że program rozpoznaje jedynie tekst drukowany, a nie ręcznie pisany.

Re: Skanowanie gotyku i rozpoznawanie tekstu (OCR)

05 mar 2011, 22:31

Witam,

Program działa bardzo dobrze, nie jest skomplikowany i efekty są naprawdę rewelacyjne. Ten program wiele ułatwia.
Dziękuję za informację.
Odpowiedz