OCR sú optické rozpoznávanie znakov alebo sú v španielčine známe tiež ako optické rozpoznávanie znakov. OCR je softvér, ktorý umožňuje rozpoznávanie textu a vytvára jeho obraz, ktorý ho transformuje na sled znakov, a potom ich ukladá v danom formáte, ktorý je možné použiť v týchto programoch na úpravu textu. Inými slovami, vďaka tejto novej technológii je možné akýkoľvek typ textu alebo dokumentu, vrátane súborov PDF, naskenovaných papierov alebo dokonca obrázkov zhotovených z digitálnych fotoaparátov, previesť na údaje, aby bolo možné ich upravovať.
Tento softvér funguje nasledujúcim spôsobom, najskôr analyzuje každú časť obrazu predmetného dokumentu; distribuovať stránku v kusoch, ako sú napríklad tabuľky, obrázky, textové bloky; potom sa riadky distribuujú slovami, aby sa z nich neskôr stali znaky; a keďže znaky už boli označené, softvér vykoná porovnanie so skupinou obrázkov vzoru. Toto postupuje podľa série hypotéz o tom, čo každá postava je; a na základe týchto hypotéz analyzuje rôzne varianty delenia čiar na slová a slov na znaky. A až po veľkom počte analýz a spracovaní hypotéz program konečne predstaví text, ktorý už bol rozpoznaný a transformovaný do nového formátu..
Je potrebné poznamenať, že dnes existuje množstvo programov, ktoré počítačový trh ponúka na základe OCR, ako napríklad OmniPage, Abbyy Fine Reader alebo READiris. YY, ktoré majú schopnosť nielen analyzovať a rozpoznať text ako taký, ale rozpoznať aj formát a štýl, ale s určitými obmedzeniami, čo si vyžaduje, aby bol text po analýze upravený a bolo možné vykonať úpravy, ktoré sú vyžadovať.