Znanost

Kaj je ocr? »Njegova opredelitev in pomen

Anonim

OCR so tisti z optičnim prepoznavanjem znakov ali v španščini znani tudi kot optično prepoznavanje znakov. OCR je programska oprema, ki omogoča prepoznavanje besedila in ustvari njegovo sliko, da jo pretvori v zaporedje znakov in jih nato shrani v določeno obliko, ki jo je mogoče uporabiti v teh programih za urejanje besedila. Z drugimi besedami, zahvaljujoč tej novi tehnologiji lahko katero koli vrsto besedila ali dokumenta, vključno z datotekami PDF, optično prebranimi papirji ali celo slikami, posnetimi z digitalnih fotoaparatov, pretvorimo v podatke, da jih lahko urejamo.

Ta programska oprema deluje na naslednji način, najprej analizira vsak del slike zadevnega dokumenta; stran razdeli med drugim v kosih, kot so tabele, slike, besedilni bloki; nato se vrstice razdelijo v besede, da kasneje postanejo znaki; in ker so znaki že navedeni, programska oprema opravi primerjavo s skupino slik vzorca. To napreduje glede na vrsto hipotez o tem, kaj je vsak lik; in na podlagi teh hipotez analizira različne različice lomljenja vrstic v besede in besed v znake. In po velikem številu analiz in obdelave hipotez program končno predstavi že prepoznano in preoblikovano besedilo v novi obliki.

Treba je opozoriti, da danes na računalniškem trgu ponujajo številne programe, ki temeljijo na OCR, kot so OmniPage, Abbyy Fine Reader ali READiris. YY, ki imajo sposobnost, da ne samo analizirajo in prepoznajo besedilo kot takšno, temveč tudi prepoznajo obliko in slog, vendar z določenimi omejitvami, zato zahtevajo, da se besedilo po analizi ureja, da se naredijo prilagoditve, ki so zahtevajo.