“Lumea este prea complexã pentru a putea fi programatã… Trebuie create sisteme care sã învete singure”

Ginny Rometty, CEO IBM

Într-un articol recent, pe lângã introducerea a douã noi concepte: roci digitale si fracturarea hidraulicã 2.0, am mentionat si existenta unei perechi de termeni: inteligentã artificialã si Big Data. Prezentarea fiind succintã, nu am explorat în profunzime o serie de proprietãti si capacitãti sinergetice ale celor doi termeni. Dar împreunã, ei reprezintã un binom, care defineste, pe scurt, un sistem cognitiv.

Pentru a da o definitie mai cuprinzãtoare si a exemplifica un sistem cognitiv, sã ne amintim cã, la începuturi, în jurul anilor 1950, computerul era, esential, un “mare idiot”: nu stia decât douã numere, 0 si 1, cu care însã efectua calcule mai multe si mai rapide decât cel mai genial om. Si în plus, ceea ce era, si încã este important, acele calcule erau precise. Dar erau acele rezultate si acurate?[1]

 

Aici intervine marea deosebire dintre limbajul folosit de computere în prezent si limbajul natural (uman).

Limbajul nostru este plin de aluzii, insinuãri, ambiguitãt>i, idiosincrazii si expresii idiomatice. Cu toate acestea, noi putem transmite foarte mult înteles si realiza o intensã colaborare, chiar în cele mai dificile situatii, datoritã limbajului. Cumva, noi reusim sã pricepem ceea ce comunicãm, chiar dacã apar omisiuni, inconsecvente, neregularitãti, neclaritãti iar, în final, putem sã ne întelegem unii pe altii cu acuratete.

Pentru un computer, “2+2” va însemna întotdeauna 4 (ceea ce înseamnã precizie). Dar noi putem considera cã “2+2” nu este o formulã matematicã, ci mai degrabã o expresie idiomaticã pentru configuratia locurilor dintr-o masinã (douã locuri în fatã, douã locuri în spate). Sau modul în care un psiholog vrea sã se refere la o familie cu 2 pãrinti si 2 copii. În aceste contexte, rãspunsul “4” este precis, dar nu este o interpretare acuratã a ceea ce încercãm noi sã spunem prin limbaj. Pentru a rãspunde cu acuratete unei întrebãri, trebuie sã considerãm contextul întrebãrii. Fãrã suficiente informatii suplimentare, este greu de rãspuns cu acuratete unei întrebãri – chiar dacã literalmente se poate rãspunde cu precizie elementelor din întrebare.

 

Dacã vrem ca computerul nostru sã rãspundã si cu precizie si cu acuratete la întrebãri, ne trebuie o interfatã om-computer prin care sã putem interactiona. Ea se numeste Procesarea Limbajului Natural (PLN). Si aici apare primul dintre cele douã elemente ale binomului mentionat, Inteligenta Artificialã, cea care, prin metodele dezvoltate si prezentate deja, asigurã crearea unei lingvistici computationale.

 

La un nivel superficial, PLN se gãseste deja instalat în produse curente de pe piatã. De exemplu, folosind GPS-ul din masinã sau un alt dispozitiv, activat prin voce, puteti comanda: “Gãseste-mi o florãrie!” Ceea ce veti obtine va fi o listã cu florãriile locale – în fond, asta ati dorit. Dacã însã comandati “Nu-mi gãsi o florãrie!”, veti obtine aceeasi listã – ori nu asta ati dorit acum. Cereti acum “Gãseste-mi o florãrie ieftinã!” sau “O florãrie deschisã la ora 22”, si listele oferite vor fi identice cu prima. Ideea este cã aceste sisteme sunt proiectate pentru un set de reguli specifice –  cautã un cuvânt-cheie (ori combinatii de cuvinte-cheie) ca sã decidã rãspunsul. Sistemele nu stiu cum sã distingã între lucruri pentru care nu existã reguli. Adicã, aceste sisteme, folosind un nivel superficial PLN, sunt precise, dau nu au acuratete.

 

Pentru a depãsi limitãrile descrise, un nivel adânc PLN incorporeazã mult mai mult context în evaluarea unei întrebãri în vederea obtinerii unei acuratete maxime. Pe lângã context, un sistem cu nivel adânc PLN va folosi si o bazã de cunostinte (corpus) din care îsi va extrage informatiile necesare pentru a rãspunde unei întrebãri.

 

Folosind acum o definitie mai cuprinzãtoare, sistemele cognitive sunt o categorie de tehnologii care utilizeazã procesarea limbajului natural (de nivel adânc), împreunã cu procese de data mining si machine learning, pentru a interactiona mai natural si a amplifica cunoasterea si expertiza umana. Aceste sisteme vor auto-învãta si interactiona ca sã ofere asistentã expertã oamenilor de stiintã, inginerilor, doctorilor, finantistilor, avocatilor si altor categorii profesionale într-o fractiune din timpul necesar în prezent.

 

O descriere a principalelor tipuri de învãtare (supravegheatã, nesupravegheatã, semi-supravegheatã, activã) si a algoritmilor prin care computerul învatã (retele neuronale artificiale, masini cu suport vectorial, arbori decizionali, clasificatori Bayes naivi) se gãsesc în capitolul introductiv al cãrtii “Artificial Intelligent Approaches in Petroleum Geosciences” si în articolele mele listate în Bibliografie.

 

Dacã sistemele de calcul primitive, folosite în SUA mai ales pentru recensãminte, au inaugurat era sistemelor tabulare cu circa 110 ani în urmã, începutul anilor 1950 a marcat debutul erei sistemelor programabile, cu rânduri si coloane de date, manipulate prin programe ca Java sau C++, aflate si în prezent la datorie.

 

Era sistemelor cognitive (2011 – ?)

Pentru a naviga cu eficientã prin oceanul actual de informatii structurate si nestructurate este necesarã o schimbare de paradigmã, pe care doamna Ginny Rommety, CEO IBM, a numit-o era sistemelor cognitive.

 

Anul 2011 a însemnat “nasterea” lui Watson – primul sistem cognitiv produs de IBM- (alte sisteme au apãrut mai recent[2]).

Demonstratia publicã a lui Watson a fost spectaculoasã: în 2011, el a concurat în direct cu doi campioni în cadrul unei emisiuni-concurs, de tip “Cine stie, câstigã!”, foarte popularã în Statele Unite[3]. Primul sistem cognitiv din lume a avut acces, în timpul emisiunii, la 200 milioane de pagini de continut structurat si nestructurat, incluzând textul complet al enciclopediei Wikipedia. Datele au fost stocate pe 4 Tb de memorie internã. Învingându-i fãrã drept de apel pe cei doi campioni, Watson a câstigat un premiu de $1.000.000 dolari si dreptul de a inaugura noua erã a viitorului computational.

 

 

My name is Watson! What is your name? (Sursa)

Amintesc si faptul cã IBM Deep Blue, un frate mai mare al lui Watson, a fost primul computer din istorie care l-a învins pe un campion mondial la sah în 1997, anulând prejudecata conform cãreia “nu s-a creat încã un computer care sã câstige la sah în fata unui mare maestru”. În plan Science-Fiction, primul sistem cognitiv a fost prezentat în filmul-cult Odiseea spatialã 2001, realizat de Stanley Kubrick în 1968: este vorba despre celebrul computer-vorbitor HAL 9000. (Pentru o perspectivã temporalã, în 1968, Bill Gates si Steve Jobs aveau 13 ani.)

Dupã debutul public spectaculos al lui Watson, compania IBM a organizat (în perioada 2011-2013) o divizie internã de startup menitã sã valideze sistemul cognitiv. Iar în 2014 a început faza de comercializare a sistemului prin crearea Grupului IBM Watson. Pânã în prezent, IBM a investit un miliard dolari în aceastã afacere, în care sunt folositi mii de programatori din lumea întreagã pentru a scrie codurile de calcul si a testa/valida sistemul cognitiv.

 

Sistemul cognitiv Watson si industria hidrocarburilor

Tot în anul 2014, IBM a înfiintat Grupul Chemicals & Petroleum, care s-a implicat cu mare succes în implementarea noii tehnologii computationale în activitãtile din industria de petrol si gaze, conventionale si neconventionale.

 

Succesul lui Watson în tehnologiile folosite de industria hidrocarburilor se datoreazã unor calitãti pe care sistemul cognitiv le-a demonstrat:

 

Watson întelege limbajul natural si comunicarea în stil uman. El poate întelege atât intentia persoanei care întreabã, cât si contextul în care întrebarea a fost pusã. Rãspunsul lui este bazat pe relevanta si ratiunea faptelor invocate. Mai mult, logica rãspunsului ales este expusã persoanei care întreabã, fiind subiectul unei foarte intense aprecieri bazate pe dovezi irefutabile. Watson poate comunica aproape ca un om, rãspunzând la întrebãri diverse: “Watson, de ce ratele de productie ale zãcãmântului X s-au schimbat fatã de anul trecut?”, “Watson, s-a întepenit prãjina în gaura de sondã. Ce trebuie sã fac acum?”.

Watson genereazã si evalueazã ipoteze bazate pe dovezi. Prin aceastã calitate, Watson este mult mai dezvoltat decât asistentii digitali de pe telefoanele noastre inteligente (vezi exemplele de mai sus).

Watson se adapteazã si învatã din trening, interactiuni si rezultate deja obtinute. Practic, Watson învatã si se adapteazã cu fiecare nouã sursã de date pe care noi o introducem în corpus -ul sãu (de ex., date de productie, jurnale de întretinere a echipamentului, analiza accidentelor produse, grafice ale timpilor ne-productivi etc.). Toate aceste adãugiri de date conduc la cresterea calitãtii rationamentelor si a acuratetei recomandãrilor. Pentru Watson, învãtarea este continuã!

Aparitia lui Watson a marcat si o nouã evolutie informationalã: de la stadiul analitic (“Fã lucrurile corect!”) s-a ajuns la stadiul cognitiv (“Fã lucrurile corecte!”). O schemã ilustrând aceastã evolutie cuprinde urmãtorii pasi:

 

–                Ce s-a întâmplat? (analizã descriptivã)

 

–                Ce se va întâmpla? (analizã predictivã)

 

–                Ce trebuie sã facem acum? (analizã predictivã directã)

 

–                Cum putem învãtaa din acestea si cum putem îmbunãtãti activitatea noastrã? (analizã cognitivã)

 

Aplicarea acestei scheme unei probleme comune din industrie (d. ex., “O cerere de forare a unei noi sonde”), necesitã parcurgerea mai multor pasi si, pentru fiecare din ei, sunt necesare multe date specializate pentru a oferi o solutie (un rãspuns). Solutiile cognitive, oferite de Watson, nu sunt menite sã înlocuiascã pe cele analitice, ci sã le complementeze, în vederea luãrii deciziei optime de forare (locatie, tip de foraj, detalii de design, drepturi de acces, plan de executie etc.).

 

Similar, Watson este extrem de eficient si în gãsirea de solutii pentru cresterea eficientei rafinãriilor si uzinelor petrochimice sau pentru optimizarea operatiunilor globale ale unei companii transnationale.

 

Câteva date despre Big Data si solutiile cognitive din industria hidrocarburilor

 

Al doilea membru al binomului definit la începutul articolului este Big Data, o realitate a perioadei actuale, produsã de introducerea fracturãrii hidraulice si a forajului orizontal.

 

În industria hidrocarburilor, Big Data sunt caracterizate de cei patru V:

 

–                Volum: Se estimeazã cã o singurã platformã de foraj contine astãzi pânã la 40,000 de senzori, care produc circa 2 Terabytes de date pe zi! Dacã considerãm numãrul total de instalatii de foraj din SUA si timpul lor de actiune, cantitate de date disponibile în industrie este impresionantã – de ordinul Zettabytes (1021 bytes)!

 

–                Varietate: Mai trebuie adãugat cã senzorii nu sunt singurele surse de date din industrie: multe altele vin din carotaje, rapoarte de productie, jurnale de mentenantã, diverse rapoarte si studii. Dintre acestea, 80% sunt date nestructurate, care necesitã o pre-procesare pentru a putea fi corect folosite de computere.

 

–                Vitezã: Big Data merg mânã în mânã cu Fast Data (date cu mare vitezã). Volumul de date create de industria hidrocarburilor creste mereu si consumatorii acestor date – operatori si analisti – cautã sã le obtinã în cel mai scurt timp posibil. Procesarea de tip Hadoop batch si transmiterea ultra-rapidã de tip streaming au trezit interesul  pentru  Big Data. În principiu, oamenii nu numai cã vor toate datele, ei le vor cât mai repede posibil – aceasta produce trendul cãtre Fast Data. Datele de mare vitezã pot însemna milioane de rânduri pe secundã, scopul lor principal fiind analizele si solutiile cognitive în timpi reali. Sistemele cognitive reduc cantitatea de transmisii din si în cloud. Asta înseamnã economie de energie, cresterea performantei si a caracterului privat al operatiunilor.

 

–                Veridicitate: Când existã dubii despre calitatea unor date, trebuie luate mãsuri suplimentare de verificare a veridicitãtii lor. Marea provocarea pe care o reprezintã corecta interpretare a datelor existente se reflectã, între altele, si în costurile exorbitante pe care industria le suferã în cazurile de  plasare gresitã a unui foraj: costuri directe în valoare de $150 milioane, si costuri de oportunitate de circa $1 miliard pe an.

 

Sistemele cognitive au început sã reprezinte noua frontierã a cunoasterii si în domeniul roboticii: masini complet automate, semi-automate sau drone pot opera si executa operatii în medii periculoase sau îndepãrtate. Dacã ne oprim numai la domeniul hidrocarburilor, meritã apreciati robotii care actioneazã pe platformele marine, pe fundul oceanelor, în zonele arctice/antarctice s.a., înlocuind personalul uman si mãrind astfel coeficientul HSE (sãnãtate, sigurantã, protectia mediului).

 

Procesarea imaginilor digitale au permis lui Watson sã ofere solutii, la început, medicilor oncologi (depistare, diagnozã, tratament), iar mai târziu, si geologilor (structura si continutul în fluide ale porilor rocilor, atribute seismice etc.).

 

Întelegerea limbajului natural, cuplat cu întelegerea textului în alte limbi, îi permit lui Watson sã poarte dialoguri cu utilizatorii din industria hidrocarburilor pentru

 

identificarea/caracterizarea noilor arii de interes;

evaluarea perimetrelor de interes din cadrul ariilor;

evaluarea perimetrelor ce urmeazã a fi cumpãrate.

 

Dialogul natural om-masinã creeazã un avantaj competitiv clar: exploateazã cunostintele colective ale companiilor si toate datele interne si externe disponibile pentru a lua decizii inteligente – mai rapide, mai calificate si mai documentate.  Folosirea sistemelor cognitive reprezintã, astfel, o pârghie eficientã pentru mãrirea productivitãtii.

 

Revolutia fracturãrii hidraulice, faza 2.0, se regãseste în, si beneficiazã din plin de era sistemelor cognitive.

 

Cãlãtoria continuã!…

 

BIBLOGRAFIE

 

Cranganu, C., H. Luchian and M. E. Breaban (Eds), 2015, Artificial Intelligent Approaches in Petroleum Geosciences, Springer, ISBN: 978-3-319-16530-1, 290 p.

Cranganu, C., 2015, Fracturarea hidraulicã 2.0: Roci digitale, inteligentã artificialã, big data si soft computing.

Bahrpeyma, F., B. Golchin, and C. Cranganu, 2013, Fast fuzzy modeling method to estimate missing logs in hydrocarbon reservoirs, J. Pet. Sci. and Eng., v. 112, p. 310 – 321.

Cranganu, C., and Breaban, M., 2013, Using support vector regression to estimate sonic log distributions: A case study from the Anadarko Basin, Oklahoma, J. Pet. Sci. and Eng., v. 103, p. 1 -13.

Cranganu, C., and E. Bautu, 2010, Using gene expression programming to estimate sonic log distributions based on the natural gamma ray and deep resistivity logs: A case study from the Anadarko Basin, Oklahoma, Journal of Petroleum Science and Engineering, v. 70, p. 243 – 255 (articol nominalizat pentru ENI Awards 2012)

Cranganu, C., 2007, Using artificial neural networks to predict the presence of overpressured zones in the Anadarko Basin, Oklahoma, Pure and Applied Geophysics, v. 164, p. 2067 – 2081.

IBM Software Group, IBM Watson Solutions, 2012, The Era of Cognitive Systems. An inside look at IBM Watson and how it works, 19 p.

Simovici, D., 2015, Intelligent Data Analysis Techniques – Machine Learning and Data Maining, in Cranganu et al. (Eds.), Artificial Intelligent Approaches in Petroleum Geosciences, Springer, ISBN: 978-3-319-16530-1, p.1 – 51.

 

NOTE

 

[1] Diferenta între precizie si acuratete este importantã. În contextul articolului de fatã, precizia reprezintã exactitatea mecanicã sau stiintificã de a gãsi ceva într-un pasaj al unui text. De exemplu, putem determina dacã un cuvânt specific existã într-un pasaj cu un mare grad de precizie. Acuratetea reprezintã gradul de apropiere de realitate a unui pasaj dedus din alt pasaj.

[2] Alte douã exemple, ulterioare lui Watson, sunt proiectul DeepMind (2014) al lui Google si platforma Zeroth (2015), produsã de Qualcomm.

[3] Numit asa în cinstea lui Thomas J. Watson, primul CEO al lui IBM.


[*] Acest articol a fost publicat pe Contributors.ro la 21 iunie 2015. http://www.contributors.ro/media-tech/era-sistemelor-cognitive-inteligen%C8%9Ba-artificiala-big-data/

 

Tags: , , , ,