Apibrėžimas OCR

OCR yra optinio simbolių atpažinimo ( angl. Optical Character Recognition) santrumpa, išraiška anglų kalba, kuri gali būti išversta kaip optinių simbolių atpažinimas . Sąvoka naudojama kompiuterių moksle, kad būtų nurodyta procedūra, leidžianti skaitmeninti tekstą per skaitytuvą .

OCR atvejis yra labai ypatingas, nes suteikia kompiuteriui įgūdžių, kurie yra pagrindiniai daugumai žmonių: skaitymas. Verta paminėti, kad tai nėra lengva užduotis vieniems iš mūsų, nors mūsų atveju mes paprastai mokomės tai daryti nuo labai mažo amžiaus, todėl mes įgyjame didelį įgūdį, net jei mums sunku suprasti kaligrafiją.

Nepaisant technologijų pažangos, OCR vis dar susiduria su keliomis problemomis. Pavyzdžiui, skaitmeninės sistemos pripažinimas rašytiniu tekstu yra gana sudėtingas. Procesas paprastai susiduria su nepatogumais, kad suskirstytų įvairius teksto vienetus. Tas pats atsitinka, kai žodžiai atrodo labai arti.

Kitų OCR gedimų gali atsirasti, kai tarp žodžių ir fono nėra pakankamai kontrasto. Tarkime, kad juodomis raidėmis parašytas tekstas yra atspausdintas ant pilkos spalvos lapo: tikėtina, kad OCR procesas negali atskirti raidžių ir žodžių .

Nepamirškime, kad, lygiai taip pat, kaip veiksmas, kuris akivaizdžiai yra toks paprastas, kaip pėsčiomis gatvėje, reikalingi keli papildomi veiksmai, siekiant išvengti kliūčių ir apsaugoti mūsų vientisumą, atspausdinto teksto skaitymas yra keleto tuo pačiu metu atliekamų susipažinimo su trasa užduočių rezultatas. beveik nesąmoningai, bet jie mus verčia dirbti.

Susidūrę su tekstu, mūsų OCR sistema yra atsakinga už pavadinimo paiešką ir atpažinimą, pastraipų, skyrybos ženklų, tarpų tarp žodžių ir santrumpų nustatymą, be kitų elementų, taip pat siekia suprasti šaltinius pernelyg puošnus ar netvarkingas ir užpildyti informaciją regionuose, kurie patyrė bet kokio nusidėvėjimo, pvz., rašalo dėmių ar trūkstamo popieriaus lapo.

Rekomenduojama