Big Data, miliardi di byte
in cerca di una policy

di Antonio Pescapè *

Una famosa infografica, presentata recentemente da Lori Lewis e Chadd Callahan, ha mostrato che in un minuto di Internet ci sono, ad esempio, 973.000 accessi a Facebook, 18 milioni di messaggi di testo e 38 milioni di messaggi WhatsApp, 4,3 milioni di video visti su Youtube e 266.000 ore di video visti su Netflix, 375.000 app scaricate da Google Play e Apple Store, 481.000 Tweet e 187 milioni di email inviate, 3,7 milioni di ricerche su Google, più di 862.000 dollari spesi in acquisti on line. Numeri incredibili, numeri fatti in soli sessanta secondi. Numeri che, mentre io scrivo e voi leggete, sono già cambiati, sono sicuramente aumentati.

E questi numeri incredibili generano una mole di dati senza precedenti. Dati a cui oggi ci riferiamo con il termine di Big Data. Internet è infatti un buon esempio, ed è il motivo per cui sono partito da questi numeri, per parlare di Big Data; ma non è l'unica fonte di questa tipologia di dati. Ciò è dovuto alla definizione stessa di Big Data, che (nonostante il nome) non è legata solo al volume dei dati ma anche ad altre proprietà, quali la velocità con cui i dati vengono raccolti, la varietà (legata natura e alla tipologia dei dati), la veridicità (legata alla qualità dei dati), e il valore (legato alla capacità di generare valore dai dati), dando così vita alle ormai famose cinque V.

La mole di dati che i sistemi si trovano a gestire oggi è dell'ordine dei Zettabyte (che significa  migliaia di miliardi di miliardi di byte!) ed è equivalente a 36 mila anni di video in HD, una quantità che solo fino a dieci anni fa era pura fantascienza: basti pensare che il 90% del totale dei dati generati dall'umanità e collezionati a oggi, è stato generato negli ultimi due anni. Tali volumi impongono dei progressi metodologici e tecnologici sia agli algoritmi sia alle architetture per il trattamento di questi dati.

Sulle pagine di Mattino 4.0 abbiamo già parlato di come i Big Data prodotti e raccolti in rete possano essere analizzati grazie ad algoritmi che spesso impropriamente definiamo di Intelligenza Artificiale, per raccomandare prodotti, servizi ed informazioni agli utenti e di come sia possibile prevedere comportamenti ed abitudini di questi ultimi. Ma i Big Data non sono solo usati per attività in rete. E i Big Data non provengono solo dalla rete Internet.

Vengono raccolti dati sull'ambiente, sulla mobilità di uomini mezzi e merci, sull'economia, sui processi produttivi e manifatturieri, sulla salute e su tanto altro ancora. Dal 2000 circa, aziende e altri soggetti (in prevalenza privati) hanno cominciato a raccogliere dati senza avere necessariamente in mente un utilizzo preciso degli stessi. E oggi nuove fonti di Big Data continuano a nascere, evolvere e crescere. E si inizia sempre più ad integrare Big Data provenienti da domini e ambiti completamente differenti e grazie a questa integrazione da un lato stanno nascendo servizi fino a poco tempo fa impensabili, dall'altro la ricerca sta ottenendo risultati che in passato si sarebbero raggiunti con orizzonti temporali incredibilmente più ampi.

Ricerca e didattica su Big Data a cui la Federico II sta prestando molta attenzione. Il nostro Ateneo svolge attività di ricerca e formazione sulle tecnologie e sulle applicazioni dei Big Data ad ambiti quali ad esempio l'economia, l'agricoltura e il settore alimentare, la medicina, la sociologia, l'astrofisica, l'ambiente e l'energia, la mobilità. In Federico II abbiamo corsi di laurea in cui si studiano i Big Data in ambito tecnologico e in ambiti sociali ed economici; abbiamo poi un nuovo corso di laurea in Data Science; e infine la Digita Academy che ha dato e darà tanto spazio al tema dei Big Data in entrambi i semestri, quello di studio e quello dei project work nel quale i Big Data sono utilizzati in diversi ambiti applicativi e su progetti concreti di mercato.

E di progetti di mercato ed esempi di utilizzo dei Big Data in giro per il mondo ne esistono a migliaia. Tutti noi usiamo servizi e applicazioni che sfruttano Big Data quando ad esempio usiamo una app che ci suggerisce un percorso al fine di evitare il traffico oppure la strada da fare sulla base delle nostre preferenze o sulle preferenze di utenti simili a noi. Macy, la famosa catena della grande distribuzione americana, cambia - praticamente in tempo reale - il prezzo per decine di milioni di prodotti in base alla domanda da parte dei clienti e alla quantità di prodotti presenti in magazzino. American Express ha usato i Big Data per individuare i conti che sarebbero stati chiusi nei quattro mesi successivi, riuscendo ad individuarne (in anticipo) circa il 25%. E sempre le società che gestiscono le carte di credito hanno individuato, grazie ai Big Data, delle relazioni per valutare il rischio finanziario di una persona: secondo analisi sui Big Data, le persone che comprano i feltrini per i mobili rappresentano i clienti migliori per gli istituti di credito, in quanto molto più affidabili nel colmare i propri debiti nei tempi concordati. A Los Angeles il dipartimento di polizia, utilizzando tutti i (big) dati dei crimini compiuti negli ultimi anni ed applicando un algoritmo di predizione, è stato in grado di prevedere con un'accuratezza di circa 50 metri quadrati i luoghi caratterizzati dall'avere un numero di crimini più elevato e grazie alle analisi sui dati ha distribuito di conseguenza le risorse e le forze in campo: ciò ha portato ad una sensibile riduzione sia dei furti sia dei crimini violenti.

Ma probabilmente, l'ambito che ha più beneficiato e beneficerà dell'utilizzo dei Big Data è quello della salute. In questo ambito sono stati fatti passi avanti incredibili sia nel mondo della ricerca sia in quello clinico. Le analisi su Big Data che hanno migliorato le diagnosi, le cure, gli approcci medici a numerose patologie, la gestione degli ospedali, la previsione di nuove epidemie e la medicina di precisione - non solo possono migliorare lo stato di salute dei pazienti, possono salvare delle vite. Più sono i dati a disposizione, più tali dati si avvicinano a Big Data più saranno di rilievo i risultati e gli impatti sulla nostra salute.

Google, con un progetto chiamato Flu Trends, analizzando i termini di ricerca digitati dagli utenti sul proprio motore di ricerca è riuscito nel 2008 a prevedere l'avanzamento dei focolai di influenza nelle aree degli Stati Uniti più velocemente del Ministero della Salute. Anche se in seguito il successo di Flu Trends è stato oscurato dal suo fallimento nello stimare l'epidemia del 2013, evidenziando la fallibilità dei Big Data, come anche la difficoltà di valutarli, i vantaggi e i potenziali benefici che essi possono portare sono innegabili.

A me sembra chiaro quindi che il paradosso enorme che stiamo vivendo in questo momento è triplice: siamo nell'era dei Big Data ma questi dati da un lato sono nelle mani di pochi, dall'altro ognuno ne possiede di propri e o li condivide con terzi (senza avere percezione né del loro valore, né delle potenziali ripercussioni) oppure non li condivide (per motivi soprattutto di natura economica); infine quando i pochi che hanno accesso alle fonti più grandi e variegate di Big Data li usano, non è facile ricostruire (o verificare) i criteri che portano ai risultati, soprattutto se tali algoritmi ed i dati su cui sono addestrati non sono pubblici. Se oggi quindi un Paese vuole realmente e rapidamente accrescere lo sviluppo ed il progresso in ambiti di interesse pubblico quali ad esempio la mobilità, l'inquinamento e la salute non può più differire la definizione di una policy per la condivisione e l'impiego dei risultati dell'analisi di Big Data. Policy da studiare, concordare ed adottare quanto prima.

L'Italia lo ha capito? Lo sa? E soprattutto, ora che lo sa, perché glielo abbiamo appena detto, lo farà?

* Università degli Studi di Napoli Federico II​
 
Sabato 30 Giugno 2018, 20:00
© RIPRODUZIONE RISERVATA



COMMENTA LA NOTIZIA
0 di 0 commenti presenti