Big data. Cum, cine şi cu ce gestionează 2,7 zettabytes de date?

Postat la 15 noiembrie 2012 282 afişări

Când Edgar F. Codd şi-a enunţat, la începutul anilor ‘80, cele „douăsprezece porunci" (de fapt, treisprezece reguli, incluzând şi o regulă zero) pentru clasificarea unui sistem de gestiune de baze de date (SGBD) drept „relaţional", războaiele comerciale în jurul acestui canon instaurat tot de Codd cu câţiva ani înainte erau deja în toi.

BIG DATA RIDICĂ MULTE PROVOCĂRI, de pildă gestionarea greoaie şi din ce în ce mai lentă a cantităţilor crescânde de date cu infrastructuri hardware învechite. Din fericire, ieftinirea hardware-ului a ţinut pasul cu tendinţa generală, azi un hard disk care ar putea stoca toată muzica lumii (nu vă ia ameţeala când citiţi asta?) costând nu mai mult de 600 de dolari. Probabil cea mai importantă provocare recunoscută de Big Data este natura datelor care sunt tranzacţionate. Datele sunt rareori structurate, după cum se vede din exemplele de mai sus. Ele pot fi reprezentate de text simplu (pagini web), fotografii, video, log-uri de utilizare a website-urilor (număr de click-uri pe o anumită pagină, de pildă), înregistrări de date (meteo, seismice, vulcanice) colectate de la senzori ştiinţifici, seturi de date medicale de la senzori specializaţi ori date fiscale de la contribuabilii publici ai unei ţări. Şi exemplele pot continua la nesfârşit. E greu să te abţii din a fi absorbit în beţia cifrelor.

Atunci când datele ce se cer analizate nu sunt structurate, utilitatea regulilor lui Codd şi a instrumentelor rezultate ca urmare a implementării cercetărilor lui este limitată. Bazele de date relaţionale sunt şi vor rămâne un instrument valoros pentru crearea de modele de date sofisticate şi perfect descriptibile logic, însă îşi arată limitele în confruntarea cu realitatea complexă şi deseori haotică. Şi atunci apare necesitatea unor instrumente noi pentru stocarea şi analiza acestor cantităţi imense de date structurate, slab structurate sau pur şi simplu nestructurate. Dar este realmente necesară această analiză? Aduce ea oare o valoare reală? Răspunsul este afirmativ şi e de ajuns să luăm exemplul intuitiv a două companii care au ajuns în prim-planul succesului în zilele noastre tocmai prin abilitatea de a se folosi de datele pe care le au la dispoziţie, deseori din domeniul public: Google şi Facebook. Google a fost pionierul analizelor de date în cantităţi imense şi în creştere şi a devenit, datorită succesului motorului său de căutare, una dintre cele mai mari companii IT ale zilelor noastre. Facebook, în ciuda lansării la bursă semi-eşuate, este una dintre companiile majore ale zilelor noastre şi nu neapărat prin ceea ce a reuşit să facă, ci prin ceea ce ar putea să realizeze când va găsi calea de a monetiza cantitatea imensă de date pe care stă.

Dincolo de aceste observaţii intuitive, există studii instituţionalizate care surprind valoarea şi beneficiul potenţial al analizelor de Big Data. De pildă, studiul McKinsey pe care l-am citat mai devreme enumeră următoarele cifre:

- 300 de miliarde de dolari în valoare potenţială în sistemul medical american din analize de Big Data, de mai mult de două ori cât cheltuieşte Spania în întreg sistemul său medical într-un an.

- 250 de miliarde de dolari în câştiguri potenţiale în sistemul administraţiei publice din Europa, mai mult decât PIB-ul Greciei. (Oare guvernul României are o estimare a câştigurilor pe care le-ar putea obţine

dintr-un sistem real de detectare a fraudelor şi a analizei declaraţiilor fiscale? E o întrebare retorică, desigur!)

- 600 de miliarde de dolari în câştiguri globale din utilizarea datelor de situare geografică a consumatorilor comerciali ai lumii.

- O creştere potenţială de 60% a profiturilor operaţionale ale companiilor de retail prin folosirea analizelor de Big Data.

- Sute de mii de job-uri noi în domeniul analizelor Big Data.

Pe data de 29 martie 2012 administraţia Obama a oferit o recunoaştere formală acestui potenţial, hotărând să investească bani reali: 200 de milioane de dolari în investiţii de R&D în Big Data, în domenii precum: sănătate publică, apărare, energie sau analize geologice.

Investind în R&D, administraţia Obama a recunoscut nu doar potenţialul economic al analizelor de Big Data, ci şi necesitatea dezvoltării instrumentelor specializate pentru astfel de analize, în condiţiile în care instrumentele existente nu sunt suficiente. Pentru că în domeniul instrumentelor existente suntem încă în copilăria timpurie. Sau, folosind terminologia Gartner, suntem încă aproape de începutul ciclului hype al Big Data. Primele reuşite, care au declaşat valul aşteptărilor (inflamate, poate?) în Big Data sunt legate în principal de maturizarea Hadoop. Hadoop este un sistem configurabil de analiză a datelor nestructurate şi în cantităţi imense care s-a dezvoltat ca rezultat al muncii comunităţii open source. Istoria acestui proiect şi a produsului rezultant este descrisă pe larg de Tom White, unul dintre cei mai importanţi participanţi la proiect, în cartea sa "Hadoop: The Definitive Guide", publicată de O'Reilly în 2009. Hadoop a apărut din ambiţia unui grup de dezvoltatori şi cercetători din California de a crea un motor de căutare open source şi din inspiraţia pe care au găsit-o aceştia la Google, care a publicat în 2003 detaliile algoritmului folosit de motorul său de căutare. Pe parcursul derulării proiectului, cercetătorii au descoperit că există mult mai multe aplicaţii practice ale funcţionalităţii produsului decât scopul pentru care fusese proiectat iniţial.

HADOOP RĂSPUNDE, DIN PUNCT DE VEDERE TEHNIC, la două provocări legate de Big Data: stocarea datelor nestructurate, printr-un sistem de fişiere distribuit, şi analiza acestor date (de orice tip ar fi ele) prin împărţirea temei de lucru în subteme executate în mod paralel de diverse noduri ale grid-ului de computere pe care este instalat Hadoop. Filosofia Google, a prelucrării datelor în mod masiv paralel, cu ajutorul unei reţele de computere relativ ieftine, însă interconectate logic, a fost păstrată. Sunt însă multe probleme care nu au încă o soluţie satisfăcătoare: de pildă, Hadoop duce lipsa unui limbaj de interogare de simplicitatea şi practicitatea SQL-ului domnului Codd (Yahoo! a încercat să remedieze acest minus prin definirea unui limbaj de nivel înalt denumit Pig). În al doilea rând, analizele nu sunt executate de Hadoop în timp real, ci în batch, asta însemnând că există o întârziere între momentul introducerii interogării în sistem şi momentul primirii rezultatelor. În al treilea rând, Hadoop nu oferă un sistem grafic de configurare a analizelor şi explorare a rezultatelor obţinute. Modul de lucru cu Hadoop este linia de comandă Unix. (Facebook a definit un astfel de sistem de analiză grafic pe care l-a denumit Hive şi pe care l-a pus la dispoziţia comunităţii open source.) Dar aceste minusuri ale Hadoop sunt pe cale să îşi găsească rezolvările.

Printre primii în a adopta Hadoop au fost Yahoo! (care deţinea în 2009 17 clustere de 24.000 de noduri rulând Hadoop), Last.fm, Rackspace şi Facebook (care stoca în 2009 20 de petabytes de date în Hadoop la un ritm zilnic de creştere de 10 terrabytes). Astăzi lista utilizatorilor conţine multe sute de nume din domeniul comercial (Fox News, Amazon, Adobe, LinkedIn, The New York Times, Spotify, Twitter), universitar sau guvernamental. Dincolo de Hadoop, alte iniţiative legate de Big Data sunt bazele de date aşa-numite "NO SQL" (Not Only SQL) sau bazele de date In Memory, care, pentru rapiditatea analizelor, folosesc ca suport pentru date nu hard-discurile, considerate prea lente, ci memoriile flash. Probabil multe din produsele etichetate drept produse Big Data vor dispărea în timp. (N-ar fi rău un nou set de reguli Codd.) Altele vor ieşi la suprafaţă şi vor fi adoptate pe scară largă. Piaţa se va maturiza pe măsură ce succesele comerciale se vor îndesi şi pe măsură ce banii investiţi în cercetare vor întoarce rezultatele aşteptate. Suntem încă la începutul ciclului hype. Efervescenţa ce se simte în domeniul Big Data aminteşte însă de vremurile de pionierat ale industriei software şi sunt convins că anii ce vor veni ne vor oferi rezultate surprinzătoare în acest drum pe care abia am început să îl explorăm. Eu însumi deplângeam, în alte articole, "moartea istoriei IT-ului", mutarea focusului de la inovaţie la entertainment şi de la progres la business. Mă bucur să văd că m-am înşelat. Ce piere într-o parte înfloreşte mai viguros în alta.

Paginatie:

Urmărește Business Magazin

Am mai scris despre:
bht,
tehnologie,
date,
gestiune
/business-hi-tech/big-data-cum-cine-si-cu-ce-gestioneaza-2-7-zettabytes-de-date-10323887
10323887
comments powered by Disqus

Preluarea fără cost a materialelor de presă (text, foto si/sau video), purtătoare de drepturi de proprietate intelectuală, este aprobată de către www.bmag.ro doar în limita a 250 de semne. Spaţiile şi URL-ul/hyperlink-ul nu sunt luate în considerare în numerotarea semnelor. Preluarea de informaţii poate fi făcută numai în acord cu termenii agreaţi şi menţionaţi in această pagină.