lente analisi persone dati sintetici dati umani in esaurimento

I dati sintetici renderanno le AI più stupide?

L'avvertimento è stato lanciato in coro da esponenti di big tech e da analisti: i dati umani per addestrare le AI sono in esaurimento e la soluzione sembra risiedere nei dati sintetici, che però presentano diversi rischi. Quali sono i problemi dell'addestramento delle AI con dati sintetici? Quali sono le alternative? Cosa ci aspetta?
26 Febbraio 2025

I dati umani per addestrare le intelligenze artificiali stanno finendo e la soluzione sembra risiedere nei dati sintetici.

Questa dinamica allarmante è stata ben evidenziata da personaggi come Elon Musk (c’è un articolo del Guardian a riguardo) e tra gli altri anche da Ilya Sutskever, co-founder di OpenAI… quindi da una delle big tech AI più sviluppate e influenti del mondo.

Il fatto non ci dovrebbe sorprendere, perché era prevedibile. Ma è solo allarmismo o una questione concreta?

Stanno davvero finendo i dati umani a disposizione?

Le straordinarie capacità di elaborazione dei modelli consentono addestramenti velocissimi. In sostanza, nel giro di mesi, è possibile addestrare un’AI su diversi petabyte di dati utili (un petabyte equivale a un milione di giga).

Tuttavia si stima che i dati umani globali sul web si aggirano intorno ai 200 zettabyte (ogni zettabyte equivale a un milione di petabyte).

E questo ci potrebbe far pensare che la notizia sia fumo. In termini pratici, 1 zettabyte è una quantità immensa di dati. Per esempio, se un petabyte equivale a circa 500 miliardi di pagine di testo, un zettabyte potrebbe contenere tutto il contenuto scritto nella storia dell’umanità migliaia di volte.

Ma non lasciamoci impressionare. I numeri considerati nel pratico sono decisamente inferiori. I dati utilizzabili infatti si riducono a dismisura per via di un grandissima quantità presente nel web di:

  • Dati duplicati,
  • Contenuti privati e protetti da copyright,
  • Dati di bassa qualità.

Quindi sì: è perfettamente plausibile che i dati umani utili siano in esaurimento.

cartello divieto persone umane dati sintetici

È per questo che l’industria AI sta considerando sempre più seriamente l’adozione di dati sintetici: ma cosa sono questi dati sintetici? Qual è il problema?

Cosa sono i dati sintetici e perché vengono utilizzati?

I dati sintetici sono informazioni generate artificialmente da algoritmi, simulazioni o altre intelligenze artificiali, invece di essere raccolti da fonti umane. Vengono impiegati per:

  • Ampliare dataset esistenti quando i dati reali sono limitati.
  • Evitare problemi di privacy, eliminando il bisogno di usare dati sensibili.
  • Migliorare la diversità dei dati per ridurre bias nei modelli.

Aziende come OpenAI, Google e Meta stanno già sperimentando l’uso di dati sintetici per addestrare modelli avanzati: in pochi anni dunque gran parte dei dataset usati per l’IA potrebbero essere costituiti da dati interamente sintetici.

Il rischio del “modello che si addestra su sé stesso”

Uno dei principali pericoli nell’uso eccessivo di dati sintetici è il fenomeno noto come Model Collapse. Se un’AI viene addestrata su dati generati da altre AI, potrebbe sviluppare una conoscenza “riciclata”, perdendo progressivamente la capacità di produrre contenuti innovativi e accurati.

Un report pubblicato da ArXiv evidenzia che il continuo riutilizzo di dati sintetici porta a una graduale degradazione della qualità del modello, rendendo le risposte sempre più distorte e meno aderenti alla realtà.

Quali sono dunque i rischi concreti di questo meccanismo?

  • Bias amplificati: senza l’intervento umano, un modello rischia di rafforzare i propri errori e distorcere la realtà.
  • Perdita di creatività e innovazione: l’AI potrebbe generare risposte sempre più prevedibili e meno originali.
  • Effetto “loop chiuso”: se un’AI viene addestrata solo su dati generati da altre AI, potrebbe sviluppare un linguaggio meno aderente alla realtà.

Come possiamo notare – specie riguardo ai bias – giù spuntano delle contraddizioni con lo scopo stesso dietro a un certo impiego dei dati sintetici.

Allucinazioni e perdita di affidabilità

Le IA già oggi soffrono di allucinazioni, ovvero risposte errate o inventate.

volto ipnotico AI allucinazione dati sintetici

L’uso di dati sintetici potrebbe aggravare il problema, rendendo sempre più difficile distinguere tra informazioni reali e artificiali.

Il futuro dell’addestramento delle IA: cosa ci aspetta?

Con l’esaurimento dei dati umani di qualità e la crescente dipendenza dai dati sintetici, il futuro dell’addestramento delle intelligenze artificiali è a un bivio. Gli esperti si stanno interrogando su quali strategie potranno garantire il progresso dell’IA senza comprometterne l’affidabilità e la precisione.

Strategie alternative ai dati sintetici

Siccome i dati sintetici possono essere utili ma controversi, molte aziende stanno cercando nuove modalità per raccogliere dati reali senza violare la privacy o incorrere in limiti legali. Alcune delle soluzioni possibili includono:

  • Interazioni dirette con gli utenti: i colossi tech stanno esplorando modi per raccogliere dati direttamente dagli utenti attraverso conversazioni con chatbot e modelli interattivi.
  • Partnership con aziende e istituzioni: l’accesso a database scientifici, giornalistici e accademici potrebbe fornire nuove fonti di dati di alta qualità.
  • Approccio federato: Google ha sperimentato l’apprendimento federato, che permette ai modelli di addestrarsi su dati decentralizzati senza trasferirli su server centrali.

Regolamentazione ed etica nell’uso dei dati

Con la crescente attenzione verso la privacy e la sicurezza dei dati, governi e istituzioni stanno lavorando a regolamentazioni per limitare l’uso incontrollato di dati sintetici. L’Unione Europea, con l’AI Act, sta stabilendo criteri più rigidi per l’addestramento dei modelli, mentre negli Stati Uniti si discute sulla necessità di etichettare i contenuti generati artificialmente.

Organizzazioni come DeepMind e OpenAI stanno promuovendo l’uso di dati tracciabili e verificabili, in modo da garantire che le AI del futuro siano più trasparenti, affidabili e meno soggette a manipolazioni.

E qui si capisce che siamo di fronte a un’altra contraddizione che genera controversie: come si possono usare dati sintetici se questi non rispettano le regolamentazioni? Queste regolamentazioni sono davvero in grado di distinguere dati umani da dati sintetici?

Ma quindi l’addestramento su dati sintetici renderà più stupide le AI o no?

Da quanto abbiamo visto, sappiamo che la risposta non è così semplice e netta. Da una parte ricorrere a dati sintetici può essere pratico e sotto alcuni aspetti incide positivamente sulle performance dei modelli; d’altra parte è dimostrato che un utilizzo massiccio ed esclusivo di dati sintetici rende le risposte delle AI ancora più inattendibili di quanto già molto spesso lo siano. Ti basta provare un qualsiasi modello e andare nel profondo per rendertene conto.

Per questi motivi è importante, da parte dei fruitori, imparare innanzitutto a generare prompt esatti. Le AI, certo, si stanno via via raffinando per avvicinarsi ai livelli umani di comprensione del linguaggio naturale, attraverso reti neurali e tecniche avanzate di machine learning e deep learning.

Ma siamo sempre noi umani – oggi – che dobbiamo guidare adeguatamente i modelli a darci le risposte che vogliamo e a verificarle.

E questo è solo un passo che possiamo fare noi in prima persona per testare direttamente.

Per il resto, continueremo a osservare cosa accade e naturalmente ad aggiornarti!

Condividi l’articolo:

logo kilobit web agency torino

Noi di Kilobit siamo una rete di professionisti con esperienza nella programmazione, nel marketing digitale, nella realizzazione di prodotti multimediali e nella stesura di contenuti in chiave SEO.

Mettiamo a disposizione la nostra decennale esperienza nei vari settori per un servizio personalizzato a 360°. Abbiamo gli strumenti adatti a far approdare e decollare la tua impresa sul web.

Tel. 0110268815
info@kilobit.it
Via Luigi Cibrario, 40 10144 TORINO

Forse potrebbero interessarti anche

Affidati ai nostri esperti

Il preventivo da noi è sempre gratuito.

Dai un'occhiata al nostro portfolio

Seguici sui nostri social

Tags: