Dati sintetici: opportunità o rischio per gli istituti di ricerca?

Era il 2006 quando Clive Humby disse una frase destinata a passare alla storia e a diventare sempre più vera col trascorrere degli anni: Data is the new oil (i dati sono il nuovo petrolio). Sono passati solo 17 anni da quell'affermazione, ma in termini di progresso tecnologico sembrano essere trascorsi dei secoli. Humby, a questo proposito, si è rivelato profetico, come profetica vuole essere la nuova tecnologia basata sui dati. Cosimo Accoto, nel suo saggio Il mondo dato: Cinque brevi lezioni di filosofia digitale edito da Egea nel 2017, ha sottolineato il passaggio da una società archiviale, che basa la comprensione del presente sull'apprendimento dal passato, ad una società oracolare, che osserva il presente per predire il futuro. Ma come si osserva il presente in quest'ottica? Studiando i dati.

Come devono essere questi dati?

numerosi;
attendibili;
analizzabili con facilità;
utili.

E se non lo fossero? La soluzione sta (forse, e non completamente) nei dati sintetici.

Cosa sono i dati sintetici

I dati sintetici sono dati creati artificialmente da appositi algoritmi, che imitano (quasi) alla perfezione i dati normalmente provenienti dal mondo reale.

Com'è possibile che ci sia bisogno di creare altri dati in un periodo storico in cui la sovrabbondanza di informazioni dilaga e l'information overload rischia di diventare una vera e propria patologia? I due fenomeni non vanno in contrasto tra loro, come potrebbe sembrare in prima battuta. Vediamo perché.

Le stime della Commissione Europea per il 2025 relative alla quantità di dati prodotta a livello globale sono impressionanti: dal 2018, in cui venivano prodotti 33 zettabytes di dati, si va verso i 175 zettabytes del 2025, un incremento pari al 530%. Per capire di che cifre stiamo parlando, basti pensare che uno zettabyte corrisponde a 1.000.000.000.000.000.000.000 (un triliardo) di byte, nel sistema binario 1.180.591.620.717.411.303.424 byte. C'è però il problema dei limiti tecnologici, organizzativi e culturali che ancora aziende ed enti hanno nell'utilizzare questi dati. Senza contare che una grandissima parte di questi dati risultano sporchi o scadenti, essendo incompleti, parziali o falsati da pregiudizi ed errori. Il loro utilizzo non risulta dunque utile ma in certi casi addirittura dannoso.

Perché si sono resi necessari

Di fronte a questa sovrabbondanza di dati molte volte inutilizzabili, si è resa necessaria la produzione di dati puliti, omogenei e soprattutto chiaramente leggibili. Ciò che però ha reso indispensabile un investimento massiccio nella generazione di dati sintetici è stata la vera e propria esplosione dell'utilizzo dell'intelligenza artificiale. Non c'è azienda tecnologica che possa ignorare l'importanza sempre crescente dell'intelligenza artificiale o che possa decidere di non investire in essa. Lo confermano i dati della Computing Technology Industry Association (CompTIA) americana, secondo cui il 91,5% delle aziende leader nei rispettivi mercati sta concretamente investendo in AI.

Ad avere più fame di dati è l'intelligenza artificiale generativa, che si basa su algoritmi di machine learning i quali necessitano di una quantità enorme di dati il più possibile coerenti con lo scenario e le funzionalità da generare. Questi dati, quindi, non devono essere solo numerosi, ma anche ordinati ed analizzabili con il minor dispendio possibile di tempo e risorse.

Come sottolineato da Agenda Digitale, "negli ultimi anni, gli esperti di intelligenza artificiale hanno imparato che i dati di buona qualità (Good Data) sono più importanti dei dati “di grande quantità” (Big Data). In soldoni, piccole quantità di dati esatti, etichettati nel modo giusto, possono migliorare le prestazioni di un sistema di intelligenza artificiale fino a dieci volte di più che con l’utilizzo di una maggiore quantità di dati inesatti".

Delineato questo scenario, diventa assai facile comprendere come i dati sintetici si renderanno sempre più necessari con il passare degli anni e con i progressi dell'intelligenza artificiale. Secondo uno studio condotto da Grand View Research, ilmercato globale deidati sintetici nel 2030 arriverà a 1,79 miliardi, mentre bisogna aspettare solo il prossimo anno per arrivare al punto in cui il 60% dei dati utilizzati per lo sviluppo di progetti di AI e di analisi sarà generato sinteticamente, stando alle stime di Gartner. Un balzo incredibile se pensiamo che ad oggi i dati sintetici rappresentano solo l’1% dei dati digitali.

Quali dati sintetici si possono generare

Le possibilità relative alla creazione di dati sintetici utilizzabili nel training dei modelli di machine learning sono praticamente infinite. Le tipologie di dati creati, però, possono essere categorizzate facilmente in base alla loro natura, struttura e al loro campo di applicazione. I dati sintetici possono essere:

dati multimediali o media data: sono i più conosciuti dalle masse, che identificano le immagini e i video prodotti dall'intelligenza artificiale con l'intelligenza artificiale stessa. Si tratta appunto di immagini, audio e video spesso non strutturati che gli algoritmi di image processing usano per generare ulteriori immagini e video sintetici;
dati testuali: la loro generazione si basa su tecniche di Natural Language Processing ed è alla base di applicazioni chatbot, traduttori simultanei ed altre interfacce conversazionali;

I campi di applicazione dei dati sintetici, tra presente e futuro

Sono moltissimi i possibili campi di applicazione dei dati sintetici, siano essi multimediali o testuali, strutturati o non strutturati. Vediamone solo alcuni, consapevoli del fatto che in realtà qualsiasi ambito può trarre beneficio dalla generazione di dati creati appositamente per capire il presente e prevedere il futuro in base ai propri interessi specifici:

dati sanitari: non è la prima volta che parliamo di dati sintetici generati per scopi sanitari. In questo articolo abbiamo parlato di Aindo, la startup italiana nata in seno alla SISSA di Trieste, che già tempo fa ha risposto all'esigenza di creare dati sintetici per addestrare l'intelligenza artificiale senza intaccare la privacy. Grazie a questo tipo di dati appositamente generati per la ricerca sanitaria si riescono ad eliminare eventuali bias presenti nei dati reali (per esempio la sottorappresentazione di alcuni gruppi), mantenendo però le relazioni e il loro storico.
dati relativi a mobilità e trasporti: in questo campo i dati sintetici sono alla base dei modelli di AI che alimentano le auto a guida autonoma e aiutano a prevedere i flussi di traffico.
dati di vendita di piattaforme e-commerce;
dati relativi all'agricoltura;
dati sintetici finanziari: il mondo della finanza li adotta per prevedere l’andamento dei mercati;
dati relativi all'industria manifatturiera;
dati sintetici per la previsione dei disastri e per il calcolo dei rischi: molti di questi dati vanno a generare modelli di previsione relativi al clima che possono essere utilizzati anche nel campo dell'agricoltura. Questo dimostra che sono possibili infinite intersezioni tra i vari ambiti, con esiti proficui per diverse categorie aziendali e diversi enti, pubblici e privati.

Le potenzialità e i vantaggi dei dati sintetici

Sono molti i benefici derivanti dalla generazione di dati sintetici, come era possibile intuire dai massicci investimenti che le principali corporation stanno destinando a questo tipo di tecnologia futuristica e futuribile. Eccone alcuni:

Semplificazione del lavoro dei data scientist: secondo alcune stime ad oggi i data scientist impiegano circa l’80% del loro tempo a selezionare, ordinare e pulire dati manualmente. Grazie ai dati sintetici si potrebbe snellire enormemente il loro lavoro, liberando tempo utile per l'analisi dei dati stessi, imprescindibile per la creazione degli algoritmi.
maggiore reperibilità dei dati e minore costo (in termini di tempo e risorse) per l'approvvigionamento di informazioni;
soluzione (parziale) del problema del trattamento dei dati personali. Le normative in materia di privacy si fanno infatti sempre più stringenti e causano l'inutilizzo di una quantità enorme di dati. Molti Data Protection Officer, o responsabili della protezione dei dati, hanno spesso le mani legate di fronte a norme intricate e in continuo aggiornamento, e a volte per pigrizia a volte per una mancanza di competenze aggiornate finiscono per privilegiare l'uso di una piccola porzione dei dati a disposizione, limitandosi a catalogare ed analizzare solo le informazioni utilizzabili senza il pericolo di incorrere in sanzioni, quelle inattaccabili insomma. Molto spesso quindi, come sottolineato anche da BNova, "i dati sintetici si sostituiscono ai dati sensibili per consentire alle organizzazioni di implementare attività di training, testing e validazione senza compromettere le disposizioni in materia di privacy."
Previsione dei casi limite: il vantaggio è evidenziato da https://www.intelligenzaartificialeitalia.net, che solleva la questione spiegando che "i set di dati del mondo reale spesso contengono uno squilibrio, perché i casi limite, che non si verificano frequentemente nella vita reale, non sono sufficientemente rappresentati. Ciò può creare distorsioni in un modello di machine learning, perché il modello potrebbe non disporre di dati sufficienti per apprendere come elaborare correttamente il caso limite. I casi limite non sono necessariamente irrilevanti: potrebbero non verificarsi molto spesso nel mondo reale, ma potrebbero essere molto significativi per il processo modellato."

Quali sono i rischi

Non è tutto oro ciò che luccica, e anche i dati sintetici, come moltissime nuove tecnologie (prima fra tutte l'intelligenza artificiale, che dei dati sintetici è la maggiore causa, generatrice ed utilizzatrice) hanno il loro lato oscuro, svantaggi che non possono essere ignorati e che in molti casi danno molti grattacapi prima del loro utilizzo. Tra i limiti dei dati sintetici ci sono tre o quattro questioni che elenchiamo a titolo esemplificativo:

la questione della privacy è solo parzialmente risolta dall'utilizzo di dati sintetici, perché anch'essi, nel momento in cui vengono generati, contengono ancora al loro interno le informazioni di persone realmente esistenti, e si conoscono già processi inversi grazie ai quali si riesce a risalire senza troppa difficoltà ai dati sensibili usati per la generazione dei gemelli sintetici.
i dati sintetici non sono (ancora, o forse non lo saranno mai del tutto) accurati come i dati reali, non riuscendo a replicarli senza un margine di errore che, a seconda del loro campo di applicazione, può risultare più o meno significativo;
l'analisi di dati sintetici, allo stato attuale delle cose, non può prescindere da un loro confronto con i dati reali, compromettendo l'effettiva velocità e convenienza dell'operazione. Il bisogno di confrontare i dati sintetici con quelli reali intacca inoltre la questione dei dati sensibili, che continuano a dover essere maneggiati in qualche misura.
i dati sintetici più accurati, cioè quelli che replicano con maggiore fedeltà quelli provenienti dal mondo reale, potrebbero portare con sé bias, lacune e pregiudizi dei quali erano impregnati i dati reali. Ciò comprometterebbe l'esito finale dell'analisi, annullando il vantaggio della quantità di dati a disposizione.

I dati sintetici manderanno in pensione gli istituti di ricerca?

Per quanto gli esiti di nuove tecnologie così invasive siano imprevedibili, è ancora troppo presto per dire che la generazione di dati sintetici manderà in pensione la raccolta e l'analisi di dati reali da parte degli istituti di ricerca tradizionali.

I motivi per sostenerlo sono diversi, e tutti si evincono facilmente dal contenuto dell'articolo. Vediamone solo qualcuno a titolo di esempio:

non possiamo ancora fare a meno dei dati reali, senza i quali i dati sintetici rischiano di rimanere lettera morta;
la raccolta, la catalogazione e l'analisi dei dati, siano essi reali o sintetici, sono processi complessiche necessitano di professionisti preparati ed aggiornati, i quali sappiano come addomesticare l'enorme quantità di materiale a disposizione;
i modelli di machine learning possono prevedere gli scenari futuri solo a partire dai dati del presente. In quanto tali, questi modelli continuano a non poter prescindere dalle analisi di dati reali raffrontati a quelli generati artificialmente. Se da oggi lasciassimo che i generatori di dati sintetici lavorassero in totale autonomia, finiremmo per tornare ad una logica archiviale, abbandonando quella oracolare alla quale stiamo dando tanta fiducia.

Alle macchine stiamo affidando dati, impulsi, gli stiamo delegando letteralmente il nostro futuro. Ma nel momento in cui scriviamo il cervello è ancora il più potente computer esistente. Per quanto questo assunto varrà ancora? Come si dice dalla notte dei tempi, ai posteri l'ardua sentenza.