Bănuiesc că vi s-a întâmplat, nu o singură dată, să aveţi nevoie de un material scris sub formă electronică, fie pentru a-l putea edita (cel mai des), fie pentru a-l introduce într-o arhivă electronică sau folosi on line. A trebuit să introduceţi totul de la tastatură, verbatim, pentru că nu aţi ştiut că se poate şi altfel.
Şi se poate! Sunt două variante de luat în calcul: recunoaşterea optică a caracterelor (OCR) şi recunoaşterea vocii. O să le detaliem pe rând.
Optical Character Recognition (OCR) este o tehnologie cercetată încă din 1929, de germanul Gustav Tauschek, dar primul brevet (US patent) a fost obţinut de americanul Handel. Încă din 1950 armata americană a fost interesată de tehnologie, dorind să transpună paginile dactilografiate în cod pentru calculator. Prima maşină de uz comercial a fost achiziţionată de Reader's Digest, în 1955, urmată de companii petroliere, de telefonie şi de forţele aeriene americane şi mai apoi de poştă.
La început se foloseau seturi de caractere speciale pentru a fi recunoscute de programe, cum ar fi OCR-A (imagine).
În 1974, Ray Kurzweil a dezvoltat un program capabil de a recunoaşte caracterele tipărite în orice font. El intenţiona ca aplicaţia lui să citească textele pentru nevăzători. Aceasta a devenit posibilă datorită a două noi tehnologii: scannerul flatbed cu senzor CCD şi recunoaşterea vocii.
Odată cu compania, tehnologia dezvoltată de Kurzweil a fost preluată de Xerox, divizie care se numeşte acum Nuance Communications.
Să cităm din Microsoft „Recunoașterea optică a caracterelor (OCR) transformă imagini de text, cum ar fi documentele scanate, în caractere de text. Cunoscută și sub numele de recunoașterea textului, OCR face posibilă editarea și reutilizarea textului conținut de imaginile scanate. OCR utilizează o formă de inteligență artificială, cunoscută sub numele de recunoașterea modelului, pentru identificarea individuală a caracterelor unui text dintr-o pagină, inclusiv semnele de punctuație, spațiile și sfârșitul de linie”. Sursa.
Tehnologia OCR modernă a fost dezvoltată de mai multe firme, fiecare propunând propriile sale soluţii software. Dintre cele mai cunoscute numim ExperVision TypeReader (care are un sistem hardware şi software puternic, de tip enterprise, care poate scana şi OCR o carte de 700 de pagini în 6 minute!), ABBYY FineReader OCR (cu suport şi pentru limba română), Nuance OmniPage, I.R.I.S. Group Readiris (poate cel mai popular, livrat OEM împreună cu multe scannere şi multifuncţionale).
Dacă dispuneţi de un scanner dar nu şi de programul de OCR, puteţi descărca gratuit FreeOCR care foloseşte motorul OCR Tesseract de la Google.
Intelligent Character Recognition (ICR) este derivat din OCR şi se referă la recunoaşterea scrisului de mână. Această tehnică de recunoaştere se mai numeşte recunoaştere on line (sau în timp real), spre deosebire de OCR, recunoaştere off line. Acest proces este bazat pe self-learning, folosind o reţea neuronală care îi îmbunătăţeşte baza de date şi deci calitatea recunoaşterii. Ce trebuie reţinut la această tehnologie este că ea e folosită de ceva timp în dispozitivele mobile dotate cu touch screen (mobile, PDA-uri etc.) pentru a recunoaşte textul scris cu stylusul. Intelligent Word Recognition (IWR) foloseşte ca bază nu caracterul ci cuvântul, recunoscând în dicţionare cuvinte ba chiar şi fraze întregi. Acest sistem este destinat acelor înscrisuri greu de recunoscut de sistemele anterior prezentate, fără a le înlocui, reducând considerabil rata erorilor.
Speech Recognition sau recunoaşterea vocii este o facilitate pe care o utilizăm deja, fie şi sub forma comenzilor vocale ale telefonului mobil. Însă aplicaţia care ne interesează aici este cea care ar putea afişa vorbele noastre sub forma unui text într-un editor de texte. Sună interesant, nu?
Aplicaţii ale recunoaşterii vocii se regăsesc în sănătate, armată, telefonie, ajutarea oamenilor cu dizabilităţi (parcă am scris mai sus de asta!), iar ramura speech-to-text processing se ocupă exact cu ceea ce ne interesează pe noi. Aceeaşi companie, Nuance Commnunications – divizie a Xerox, produce unul dintre cele mai cunoscute programe de recunoaştere a vocii, Dragon NaturallySpeaking, ajuns la versiunea 10, personalizată pentru fiecare categorie de utilizatori (legal, medical, educaţional etc.). Deşi versiunea standard nu este foarte scumpă (99 USD), din păcate încă nu este disponibil pentru limba română (numai pentru engleză, franceză, italiană, spaniolă, germană şi oandeză).
Cât despre persoanele cu dizabilităţi auditive, ele se pot bucura acum de iCommunicator, care face posibilă comunicarea duplex prin trei moduri diferite: voce → text, voce sau text → video cu limbajul semnelor şi voce sau text → voce generată de calculator. Din păcate nu ştiu în ce măsură este disponibil în alte limbi decît engleza.
• Imaginea de sus (ABBYY FineReader 8) este (c) ABBYY; cea cu setul de caractere al fontului OCR-A este (c) Linotype; iar cea de jos este (c) Nuance Commnunications Inc. Mulţumesc.
ULTIMELE POSTURI APARUTE PE BLOG

1 Response to "Dactilografierea în era IT (OCR, ICR şi Speech Recognition)"

  1. jowdjbrown Says:

    We are certain that this cooperation will strengthen our academics ties, and we hope it will serve a greater good: the benefit of mankind. speech recognition program