Czym jest oprogramowanie OCR?
Dzięki postępowi w dziedzinie technologii informatycznej, korzystający z odpowiedniego software’u komputer jest w stanie wykonać całą masę zróżnicowanych zadań, znacząco przyspieszając tym pracę ludzi. Wachlarz dostępnych typów i klas oprogramowania jest ogromny, każdy z nich przeznaczony do niego innego zadania. Wśród nich znajdziemy programy typu OCR. Czym one są, jak działają i w jakich sytuacjach mogą się przydać?
OCR – co to to takiego?
OCR (z ang. Optical Character Recognition – „optyczne rozpoznawanie znaków”) to technologia informatyczna umożliwiająca rozpoznawanie tekstów zapisanych w formie pliku graficznego i następnie przetwarzanie ich do postaci pliku tekstowego. Cel tego typu konwersji jest prosty – dzięki oprogramowaniu OCR możemy „wyciągnąć” z pliku graficznego, na przykład skanu dokumentu urzędowego, strony książki interesujący nas tekst, a następnie przekształcić go do postaci nadającej się do edycji. Jest to doskonała alternatywa dla ręcznego przepisywania tekstów. Wśród programów OCR znajdują się produkty przeznaczone do wykonywania konkretnych zadań. Przykładem jest tutaj ReadIT OCR Smart, który daje możliwość pobierania odpowiednich danych z faktur, a następnie eksportowania ich np. do systemów księgowych
Jak działają programy OCR?
Schemat działania każdego programu OCR jest w najogólniejszej zasadzie bardzo podobny. Składają się na niego trzy etapy:
- Wczytanie obrazu i wyodrębnienie jego części składowych. Jeśli dokumentem, który ma zostać poddany konwersji jest skan stronnicy książki, program w pierwszej kolejności ustala, z jakimi elementami ma w nim do czynienia. Standardowo jasne miejsca zostają rozpoznane jako pusta przestrzeń, ciemne zaś – jako litery, które mają zostać zidentyfikowane w kolejnym etapie. Program OCR rozpoznaje również elementy graficzne, na przykład pieczątki czy kody kreskowe.
- Rozpoznawanie tekstu. Najczęściej odbywa się z pomocą analizy i porównania wyodrębnionych znaków z bazą wzorów. W ten sposób oprogramowanie OCR identyfikuje pojedyncze litery, cyfry i znaki interpunkcyjne
- Tworzenie tekstu. Po rozpoznaniu znaków program przystępuje do budowania z nich słów i zdań identycznych z pierwowzorem. Następnie tekst zapisany jest w postaci pliku umożliwiającego ręczną edycję, np. w celu korygowania błędów powstających w wyniku niskiej jakości oryginalnego dokumentu czy zniekształcenia obrazu.
Współczesne programy OCR oferują szeroki wachlarz opcji, między innymi rozróżnianie kolorów tekstu oraz rozpoznawanie języków.
Gdzie znajdują zastosowanie programy OCR?
Programy OCR stosowane są między innymi przez:
- Księgowych – dzięki nim możliwie jest szybkie zaczytywanie danych z faktur oraz innych dokumentów rozliczeniowych
- Urzędnicy państwowi i notariusze – oprogramowanie OCR może im służyć do pobierania treści z wielu rodzajów dokumentów
- Archiwistów – czyli osoby pracujące w różnego rodzaju instytucjach państwowych, bibliotekach czy muzeach, do których zadań należy między innymi gromadzenie, przechowywanie, opisywanie i klasyfikacja dokumentów.
Oraz wiele innych osób czy firm, które w ramach swoich obowiązków zajmują się digitalizacją dokumentów. A dlaczego warto korzystać z tego typu oprogramowania? Przede wszystkim ze względu na ogromną oszczędność czasu. Współczesne programy OCR są w stanie przekształcać pliki graficzne z nawet dużą ilością tekstu na edytowalne pliki tekstowe w ciągu zaledwie kilku sekund – ręczne przepisywanie danych trwa wielokrotnie dłużej. Gdyby firmy lub urzędy miały zlecać to zadanie swoim pracownikom, w wielu przypadkach mogłoby się okazać, że nie są oni w stanie w ciągu dnia pracy zajmować się czymkolwiek innym, a i tak tempo ich pracy byłoby nieadekwatnie niskie w stosunku do ilości powstających dokumentów. Jednocześnie programy OCR odznaczają się bardzo wysoką dokładnością i popełniają niewiele błędów, które przy ręcznym przepisywaniu mogą przejść zupełnie niezauważone. Wszystko to przekłada się na znaczną redukcję kosztów.