I dati umani per addestrare le intelligenze artificiali stanno finendo e la soluzione sembra risiedere nei dati sintetici.
Questa dinamica allarmante è stata ben evidenziata da personaggi come Elon Musk (c’è un articolo del Guardian a riguardo) e tra gli altri anche da Ilya Sutskever, co-founder di OpenAI… quindi da una delle big tech AI più sviluppate e influenti del mondo.
Il fatto non ci dovrebbe sorprendere, perché era prevedibile. Ma è solo allarmismo o una questione concreta?
Stanno davvero finendo i dati umani a disposizione?
Le straordinarie capacità di elaborazione dei modelli consentono addestramenti velocissimi. In sostanza, nel giro di mesi, è possibile addestrare un’AI su diversi petabyte di dati utili (un petabyte equivale a un milione di giga).
Tuttavia si stima che i dati umani globali sul web si aggirano intorno ai 200 zettabyte (ogni zettabyte equivale a un milione di petabyte).
E questo ci potrebbe far pensare che la notizia sia fumo. In termini pratici, 1 zettabyte è una quantità immensa di dati. Per esempio, se un petabyte equivale a circa 500 miliardi di pagine di testo, un zettabyte potrebbe contenere tutto il contenuto scritto nella storia dell’umanità migliaia di volte.
Ma non lasciamoci impressionare. I numeri considerati nel pratico sono decisamente inferiori. I dati utilizzabili infatti si riducono a dismisura per via di un grandissima quantità presente nel web di:
- Dati duplicati,
- Contenuti privati e protetti da copyright,
- Dati di bassa qualità.
Quindi sì: è perfettamente plausibile che i dati umani utili siano in esaurimento.
È per questo che l’industria AI sta considerando sempre più seriamente l’adozione di dati sintetici: ma cosa sono questi dati sintetici? Qual è il problema?
Cosa sono i dati sintetici e perché vengono utilizzati?
I dati sintetici sono informazioni generate artificialmente da algoritmi, simulazioni o altre intelligenze artificiali, invece di essere raccolti da fonti umane. Vengono impiegati per:
- Ampliare dataset esistenti quando i dati reali sono limitati.
- Evitare problemi di privacy, eliminando il bisogno di usare dati sensibili.
- Migliorare la diversità dei dati per ridurre bias nei modelli.
Aziende come OpenAI, Google e Meta stanno già sperimentando l’uso di dati sintetici per addestrare modelli avanzati: in pochi anni dunque gran parte dei dataset usati per l’IA potrebbero essere costituiti da dati interamente sintetici.
Il rischio del “modello che si addestra su sé stesso”
Uno dei principali pericoli nell’uso eccessivo di dati sintetici è il fenomeno noto come Model Collapse. Se un’AI viene addestrata su dati generati da altre AI, potrebbe sviluppare una conoscenza “riciclata”, perdendo progressivamente la capacità di produrre contenuti innovativi e accurati.
Un report pubblicato da ArXiv evidenzia che il continuo riutilizzo di dati sintetici porta a una graduale degradazione della qualità del modello, rendendo le risposte sempre più distorte e meno aderenti alla realtà.
Quali sono dunque i rischi concreti di questo meccanismo?
- Bias amplificati: senza l’intervento umano, un modello rischia di rafforzare i propri errori e distorcere la realtà.
- Perdita di creatività e innovazione: l’AI potrebbe generare risposte sempre più prevedibili e meno originali.
- Effetto “loop chiuso”: se un’AI viene addestrata solo su dati generati da altre AI, potrebbe sviluppare un linguaggio meno aderente alla realtà.
Come possiamo notare – specie riguardo ai bias – giù spuntano delle contraddizioni con lo scopo stesso dietro a un certo impiego dei dati sintetici.
Allucinazioni e perdita di affidabilità
Le IA già oggi soffrono di allucinazioni, ovvero risposte errate o inventate.
L’uso di dati sintetici potrebbe aggravare il problema, rendendo sempre più difficile distinguere tra informazioni reali e artificiali.
Il futuro dell’addestramento delle IA: cosa ci aspetta?
Con l’esaurimento dei dati umani di qualità e la crescente dipendenza dai dati sintetici, il futuro dell’addestramento delle intelligenze artificiali è a un bivio. Gli esperti si stanno interrogando su quali strategie potranno garantire il progresso dell’IA senza comprometterne l’affidabilità e la precisione.
Strategie alternative ai dati sintetici
Siccome i dati sintetici possono essere utili ma controversi, molte aziende stanno cercando nuove modalità per raccogliere dati reali senza violare la privacy o incorrere in limiti legali. Alcune delle soluzioni possibili includono:
- Interazioni dirette con gli utenti: i colossi tech stanno esplorando modi per raccogliere dati direttamente dagli utenti attraverso conversazioni con chatbot e modelli interattivi.
- Partnership con aziende e istituzioni: l’accesso a database scientifici, giornalistici e accademici potrebbe fornire nuove fonti di dati di alta qualità.
- Approccio federato: Google ha sperimentato l’apprendimento federato, che permette ai modelli di addestrarsi su dati decentralizzati senza trasferirli su server centrali.
Regolamentazione ed etica nell’uso dei dati
Con la crescente attenzione verso la privacy e la sicurezza dei dati, governi e istituzioni stanno lavorando a regolamentazioni per limitare l’uso incontrollato di dati sintetici. L’Unione Europea, con l’AI Act, sta stabilendo criteri più rigidi per l’addestramento dei modelli, mentre negli Stati Uniti si discute sulla necessità di etichettare i contenuti generati artificialmente.
Organizzazioni come DeepMind e OpenAI stanno promuovendo l’uso di dati tracciabili e verificabili, in modo da garantire che le AI del futuro siano più trasparenti, affidabili e meno soggette a manipolazioni.
E qui si capisce che siamo di fronte a un’altra contraddizione che genera controversie: come si possono usare dati sintetici se questi non rispettano le regolamentazioni? Queste regolamentazioni sono davvero in grado di distinguere dati umani da dati sintetici?
Ma quindi l’addestramento su dati sintetici renderà più stupide le AI o no?
Da quanto abbiamo visto, sappiamo che la risposta non è così semplice e netta. Da una parte ricorrere a dati sintetici può essere pratico e sotto alcuni aspetti incide positivamente sulle performance dei modelli; d’altra parte è dimostrato che un utilizzo massiccio ed esclusivo di dati sintetici rende le risposte delle AI ancora più inattendibili di quanto già molto spesso lo siano. Ti basta provare un qualsiasi modello e andare nel profondo per rendertene conto.
Per questi motivi è importante, da parte dei fruitori, imparare innanzitutto a generare prompt esatti. Le AI, certo, si stanno via via raffinando per avvicinarsi ai livelli umani di comprensione del linguaggio naturale, attraverso reti neurali e tecniche avanzate di machine learning e deep learning.
Ma siamo sempre noi umani – oggi – che dobbiamo guidare adeguatamente i modelli a darci le risposte che vogliamo e a verificarle.
E questo è solo un passo che possiamo fare noi in prima persona per testare direttamente.
Per il resto, continueremo a osservare cosa accade e naturalmente ad aggiornarti!