Acasă » IT & C

Google+reCAPTCHA=?

Autor: Vali Bîrzoi publicat pe 2 octombrie 2009 – 12:33Niciun comentariu
Anuntul achiziţiei a fost făcut pe blogul Google cu text CAPTHCA

Anuntul achiziţiei a fost făcut pe blogul Google cu text în format CAPTHCA © foto Google

În urmă cu exact doi ani, Bill Inmon, considerat un guru în domeniul stocării de date, cu 46 de cărţi şi mai mult de 650 de articole publicate la vremea respectivă pe această temă, se afla la Bucureşti.  Invitat la Buisness Inteligence Roadshow organizat de IDC, acesta spunea: „Mai mult de 80% din informaţiile unei companii sunt într-un format textual, nestructurat. Problema nu este dacă datele deţinute au sau nu valoare. Căutarea de informaţii în interiorul întreprinderii este doar un punct de plecare. Pentru a face o analiză eficientă, datele sub formă de text trebuie să fie integrate cumva. Altfel, se ajunge într-un turn Babel“.

Încă de pe atunci se vorbea de cât de mare ar fi impactul integrării textelor nestructurate în bazele de date, iar cine reuşeşte primul să facă aşa ceva, va da lovitura. La vremea aceea nu exista un algoritm eficient de sortare şi stocare a datelor respective, aflate sub formă de text, în funcţie de criterii relevante (algoritm denumit generic „Textual ETL“) Poate ca articolul pe care l-am scris atunci în Capital sa fi trecut neobservat, însă eu mi-am amintit de Inmon şi de “profeţiile” lui de cum am citit de achiziţia firmei reCAPTHA de către Google. În numai doi ani s-au făcut progrese enorme. Astăzi vorbim de Optical Character Recognition (OCR), tehnologie care poate sta la baza indexării textelor din cărţi, dosare, documente redactate pe alt suport decât cel electronic etc.

Compania reCAPTCHA a perfecţionat această tehnică, iar Google avea nevoie de tehnologia respectivă, însă nu (doar) pentru a îmbunătăţi securitatea de pe site-urile sale. Aşa cum menţionează blogul oficial Google, “tehnologia unică a celor de la reCAPTCHA îmbunătăţeşte procesul de convertire a imaginilor scanate în text, cunoscut sub numele de OCR. Tehnologia va îmbunătăţi inclusiv mari proiecte de arhivare, precum Google Books şi Google News Archive Search”. Inclusiv, dar nu numai, am adăuga noi. Mai rămâne un pas de făcut, acela de a integra textele astfel obţinute în baze de date, nu? O primă încercare o puteţi vedea deja în Google Docs, care e o mică bază de date.

Miza este uriaşă, pentru proiectele de e-health, de exemplu, o piaţă cu potenţial foarte mare, în care companii precum Google, Microsoft, Intel şi aşa mai departe investesc sute de milioane de dolari. În momentul în care fişele medicale, chiar însemnările sau reţetele scrise de mână ale doctorilor for putea fi indexate în baze de date, medicina modernă se va scrie online. Dacă vă întrebaţi de ce reţelele de social networking, precum Facebook, care nu fac nici un fel de profit, valorează miliarde şi zeci de miliarde de dolari, un răspuns ar putea fi şi acesta că aici se pot integra astfel de proiecte extrem de uşor, iar o masă mare de pacienţi este la un click distanţă.

Replica celorlalţi la demersul Google nu se va lăsa aşteptată. Microsoft stă demult cu ochii pe algoritmurile Textual ETL şi tehnologiile de OCR. În cadrul soluţiei SQL Server 2008, platforma SharePoint face deja o legătură între datele structurate, stocate ale companiei şi cele nestructurate (documente), pe care le găzduieşte. Să vedem cine face următorul pas!

Comentariile sunt închise.

Acceseaza varianta mobile a site-ului