Дефиниция OCR

OCR е съкращение от Оптично разпознаване на символи, израз на английски език, който може да се преведе като Оптично разпознаване на символи . Понятието се използва в компютърната наука за назоваване на процедура, която позволява цифровизиране на текст чрез скенер .

Случаят с OCR е много специфичен, тъй като дава на компютъра умение, което е основно за повечето човешки същества: четене. Заслужава си да споменем, че това не е лесна задача за всеки от нас, въпреки че в нашия случай обикновено се учим да го правим от много ранна възраст, затова придобиваме голямо умение, дори когато трябва да се изправим пред калиграфия, която е трудно да се разбере.

Въпреки напредъка на технологиите, OCR все още е изправен пред редица проблеми. Например получаването на цифрова система за разпознаване на ръкописен текст е доста трудно. Процесът обикновено среща неудобства при сегментирането на различните текстови единици. Същото се случва, когато думите изглеждат много близки заедно.

Други грешки на OCR могат да се появят, когато няма достатъчно контраст между думите и фона. Да предположим, че текст, написан с черни букви, се отпечатва на сив лист: вероятно процесът OCR не може да разграничи буквите и думите .

Нека не забравяме, че както действието, очевидно толкова просто, колкото да вървим по улицата, изисква серия от допълнителни действия, за да се избегнат пречките и да се защити нашата цялост, четенето на отпечатан текст е резултат от няколко едновременни задачи за разузнаване, които изпълняваме. почти несъзнателно, но те ни водят работа.

Когато се сблъскате с текст, нашата собствена OCR система е отговорна за търсене и разпознаване на заглавието, за идентифициране на параграфи, пунктуационни знаци, интервали между думи и съкращения, както и за стремеж към разбиране на източниците. прекалено богато украсен или неподреден и да допълва информацията в региони, които са претърпели всякакъв вид износване, като например петно ​​от мастило или липсващ лист хартия.

Препоръчано