Nel 2016, il volume stimato di traffico mobile a livello mondiale è stato pari a 6,2 miliardi di Gbyte (6,2 Exabyte) al mese. Per il 2020 si prevedono quasi 40.000 Exabyte di dati (40 Zetabyte). Su Google vengono eseguite oltre 3,5 miliardi di ricerche al giorno, mentre gli utenti di Facebook aumentano all’incirca del 22% anno dopo anno. Possiamo aggiungere i 187 milioni di email, i 38 milioni di messaggi Whatsapp e i 18 milioni di sms scambiati ogni minuto, e così via. Si stima che dalla sola Cina, entro il 2020, proverrà il 20% di tutti i dati generati sul pianeta.
Difficile visualizzare numeri di questo tipo. Per dare un’idea, ecco un paio di termini di paragone. Supponendo che su tutte le spiagge della Terra vi siano 700.500.000.000.000.000.000 granelli di sabbia, i 40 Zb citati prima equivarebbero a 57 volte tale quantità. Oppure, se potessimo salvare tutti i 40 Zb su dischi Blu-ray, il peso di tali dischi (senza custodia) sarebbe pari a quello della portaerei da guerra Nimitz. L’espressione ‘Big Data’ si riferisce appunto alle grandi quantità di dati come queste.
Di tutti questi dati, solo un quarto potrebbe dimostrarsi utile ad aziende e consumatori, se opportunamente classificato e trattato. Ma solo il 3% di essi viene ‘taggato’ e una percentuale ancora minore, stimata nello 0,5 %, viene davvero esaminata.
È tuttavia evidente che una massa tanto enorme di dati non può essere gestita e analizzata utilizzando metodi tradizionali per estrarre le informazioni in essi ‘nascoste’ ed eseguire operazioni come la manutenzione predittiva degli impianti, l’analisi dei comportamenti dei consumatori, proiezioni di mercato e così via.
Anche gli edifici sono pieni di dispositivi e sistemi che producono grandi quantità di dati: dai BMS (Building Management System), ai sensori di temperature e umidità, al controllo degli accessi e così via. Il problema diventa pertanto quello di combinare i vari flussi di dati provenienti da diverse sorgenti eterogenee in un singolo centro di raccolta nel quale i dati stessi possano essere analizzati per ricavare delle informazioni utili.
Il primo problema posto dai Big Data nell’edificio è costituito dalla molteplicità delle sorgenti e dalla loro eterogeneità. La corretta denominazione ed etichettatura dei dati diventano quindi critiche per potere assicurare la coerenza fra le varie sorgenti.
In generale, i Big Data possono essere caratterizzati da 5 ‘V’:
Del volume abbiamo già detto. La velocità si riferisce invece alla quantità di dati accumulati nell’unità di tempo, considerando che nei Big Data vi è un flusso enorme e continuo di dati.
Per quanto riguarda la varietà, essa si riferisce alla natura dei dati, che possono essere strutturati o meno. I dati strutturati sono fondamentalmente dei dati organizzati, con lunghezza e formato definiti mentre i dati non strutturati, in genere non organizzati, sono dati che non si inseriscono nella tradizionale struttura a righe e colonne dei database relazionali. Esempi possono essere testi, immagini, video, ecc.
La veracità indica le incongruenze e l’incertezza nei dati, perché i dati disponibili, provenendo da più sorgenti diverse, possono essere disordinati, rendendo difficile il controllo della qualità e della precisione. In particolare, una massa di dati disordinati può creare confusione, mentre pochi dati possono fornire informazioni incomplete.
Infine, il valore. Dobbiamo ricordare che una massa di dati non ha alcun valore ed è sostanzialmente inutile se non viene trasformata in qualcosa di significativo, da cui si possano estrarre delle informazioni. Di fatto, questa è la ‘V’ più importante delle cinque.
Dopo la loro combinazione e normalizzazione, i Big Data possono mostrare tutte le loro potenzialità. Per esempio, si possono applicare modelli di analisi e algoritmi per identificare i possibili risparmi in termini operativi e di energia, si possono prevedere i futuri malfunzionamenti dei sistemi dell’edificio ed è possibile ottimizzare l’edificio stesso.
Prendere decisioni sulla base dei modelli e dei trend individuati nei dati raccolti può creare la differenza nella gestione dell’edificio. Il problema è farlo con un BMS, che tipicamente è progettato per il comando e il controllo dei sistemi dell’edificio mentre i dati vengono raccolti. Occorre quindi una nuova piattaforma da affiancare al BMS che, appunto, si occupi del data mining, ossia dei programmi di estrazione di informazioni utili dalle grandi quantità di dati disponibili.