Big data, una prospettiva storica da vault a lake

Di Roberto Grassi - pubblicato il 27/10/2022

Big data, una prospettiva storica da vault a lake

Di Roberto Grassi - pubblicato il 27/10/2022

Di Roberto Grassi
pubblicato il 27/10/2022

Volume, Velocità, Varietà, Veridicità, Variabilità: quando si parlava di Big Data qualche anno fa si parlava soprattutto delle 5V (erano l'Hype del momento, prima che si parlasse solamente di AI). Ma alle origini le V erano solo 3, che son quelle che ci interessano maggiormente.

Volume, Velocità, Varietà, Veridicità, Variabilità: quando si parlava di Big Data qualche anno fa si parlava soprattutto delle 5V (erano l'Hype del momento, prima che si parlasse solamente di AI).

Ma alle origini le V erano solo 3, che son quelle che ci interessano maggiormente: le 3V ci dicevano che dovevamo strutturarci per gestire grandi quantità di dati, gestirle velocemente (caricando quasi in tempo reale o quantomeno giornalmente), gestire dati di natura diversa.

La principale risposta tecnica nei primi anni è stata il data-lake (tradotto in pratica nell'ecosistema Hadoop su base HDFS) che permetteva, grazie a una forte scalabilità orizzontale, il caricamento di grandi quantità di dati e velocemente.

Il fatto che fosse fondamentalmente un file system permetteva inoltre di caricare dati di natura completamente diversa. Lo scotto da pagare era che non ci si preoccupava di mettere in relazione i dati fra loro con impatti in termini di prestazioni in fase di analisi e di difficoltà nell’effettuare delle ricerche.

Con quantitativi importanti di testi liberi, immagini, registrazioni audio-video, ovvero quando prevale il dato non strutturato, questo è chiaramente inevitabile.

Provo a spiegarmi meglio.

Se devo salvare delle fotografie, dei video, delle registrazioni audio per potervi poi accedere in seguito faccio big data solo fino a un certo punto, perché manca l’attività di sintesi, o, potremmo dire, di "intelligence" sui dati.

A noi interessano Big Data su cui fare attività di sintesi. Quelli da cui ricaviamo informazioni. E gli anni di pratica ci danno evidenza che sono ben poche le organizzazioni che fanno attività di sintesi su dati destrutturati (video, audio, testi lunghi e liberi, di cui sopra).

Gli altri, che siano banche, energia, GDO, lavorano col dato strutturato: testi brevi, numeri, classificatori. Valgono ancora le 3 V, ma le performance delle attività di sintesi sono fondamentali.

Quindi bisogna trovare un equilibrio tra le caratteristiche del Data Lake basato su HDFS e i database relazionali.

L'equilibrio viene trovato con il Data Vault che scompone lo schema logico relazionale in entità indipendenti e autonome fra loro (e che quindi permettono facilità e rapidità di caricamento).

Le prestazioni non sono spesso confrontabili con quelle di una struttura relazionale, ma comunque di gran lunga migliori rispetto a un data lake.

In estrema sintesi, se il modello relazionale performa in fase di sintesi e il modello data lake in fase di caricamento, il data vault equilibra le due necessità.

Proprio per questo le attività di SideSoft in contesti finanziari, ma non solo, sono negli ultimi anni concentrate nella realizzazione di strati di dati intermedi, basati su modelli data-vault che intermediano gli strati operazionali e di sintesi abbinati, spesso e volentieri, a tool di virtualizzazione.