Intelligenza Artificiale, News

I dati sintetici renderanno le AI più stupide?

L'avvertimento è stato lanciato in coro da esponenti di big tech e da analisti: i dati umani per addestrare le AI sono in esaurimento e la soluzione sembra risiedere nei dati sintetici, che però presentano diversi rischi. Quali sono i problemi dell'addestramento delle AI con dati sintetici? Quali sono le alternative? Cosa ci aspetta?

Intelligenza Artificiale, News
26 Febbraio 2025

26 Febbraio 2025

I dati umani per addestrare le intelligenze artificiali stanno finendo e la soluzione sembra risiedere nei dati sintetici.

Questa dinamica allarmante è stata ben evidenziata da personaggi come Elon Musk (c’è un articolo del Guardian a riguardo) e tra gli altri anche da Ilya Sutskever, co-founder di OpenAI… quindi da una delle big tech AI più sviluppate e influenti del mondo.

Il fatto non ci dovrebbe sorprendere, perché era prevedibile. Ma è solo allarmismo o una questione concreta?

Indice dei contenuti

Stanno davvero finendo i dati umani a disposizione?

Le straordinarie capacità di elaborazione dei modelli consentono addestramenti velocissimi. In sostanza, nel giro di mesi, è possibile addestrare un’AI su diversi petabyte di dati utili (un petabyte equivale a un milione di giga).

Tuttavia si stima che i dati umani globali sul web si aggirano intorno ai 200 zettabyte (ogni zettabyte equivale a un milione di petabyte).

E questo ci potrebbe far pensare che la notizia sia fumo. In termini pratici, 1 zettabyte è una quantità immensa di dati. Per esempio, se un petabyte equivale a circa 500 miliardi di pagine di testo, un zettabyte potrebbe contenere tutto il contenuto scritto nella storia dell’umanità migliaia di volte.

Ma non lasciamoci impressionare. I numeri considerati nel pratico sono decisamente inferiori. I dati utilizzabili infatti si riducono a dismisura per via di un grandissima quantità presente nel web di:

Dati duplicati,
Contenuti privati e protetti da copyright,
Dati di bassa qualità.

Quindi sì: è perfettamente plausibile che i dati umani utili siano in esaurimento.

È per questo che l’industria AI sta considerando sempre più seriamente l’adozione di dati sintetici: ma cosa sono questi dati sintetici? Qual è il problema?

Cosa sono i dati sintetici e perché vengono utilizzati?

I dati sintetici sono informazioni generate artificialmente da algoritmi, simulazioni o altre intelligenze artificiali, invece di essere raccolti da fonti umane. Vengono impiegati per:

Ampliare dataset esistenti quando i dati reali sono limitati.
Evitare problemi di privacy, eliminando il bisogno di usare dati sensibili.
Migliorare la diversità dei dati per ridurre bias nei modelli.

Aziende come OpenAI, Google e Meta stanno già sperimentando l’uso di dati sintetici per addestrare modelli avanzati: in pochi anni dunque gran parte dei dataset usati per l’IA potrebbero essere costituiti da dati interamente sintetici.

Il rischio del “modello che si addestra su sé stesso”

Uno dei principali pericoli nell’uso eccessivo di dati sintetici è il fenomeno noto come Model Collapse. Se un’AI viene addestrata su dati generati da altre AI, potrebbe sviluppare una conoscenza “riciclata”, perdendo progressivamente la capacità di produrre contenuti innovativi e accurati.

Un report pubblicato da ArXiv evidenzia che il continuo riutilizzo di dati sintetici porta a una graduale degradazione della qualità del modello, rendendo le risposte sempre più distorte e meno aderenti alla realtà.

Quali sono dunque i rischi concreti di questo meccanismo?

Bias amplificati: senza l’intervento umano, un modello rischia di rafforzare i propri errori e distorcere la realtà.
Perdita di creatività e innovazione: l’AI potrebbe generare risposte sempre più prevedibili e meno originali.
Effetto “loop chiuso”: se un’AI viene addestrata solo su dati generati da altre AI, potrebbe sviluppare un linguaggio meno aderente alla realtà.

Come possiamo notare – specie riguardo ai bias – giù spuntano delle contraddizioni con lo scopo stesso dietro a un certo impiego dei dati sintetici.

Allucinazioni e perdita di affidabilità

Le IA già oggi soffrono di allucinazioni, ovvero risposte errate o inventate.

L’uso di dati sintetici potrebbe aggravare il problema, rendendo sempre più difficile distinguere tra informazioni reali e artificiali.

Il futuro dell’addestramento delle IA: cosa ci aspetta?

Con l’esaurimento dei dati umani di qualità e la crescente dipendenza dai dati sintetici, il futuro dell’addestramento delle intelligenze artificiali è a un bivio. Gli esperti si stanno interrogando su quali strategie potranno garantire il progresso dell’IA senza comprometterne l’affidabilità e la precisione.

Strategie alternative ai dati sintetici

Siccome i dati sintetici possono essere utili ma controversi, molte aziende stanno cercando nuove modalità per raccogliere dati reali senza violare la privacy o incorrere in limiti legali. Alcune delle soluzioni possibili includono:

Interazioni dirette con gli utenti: i colossi tech stanno esplorando modi per raccogliere dati direttamente dagli utenti attraverso conversazioni con chatbot e modelli interattivi.
Partnership con aziende e istituzioni: l’accesso a database scientifici, giornalistici e accademici potrebbe fornire nuove fonti di dati di alta qualità.
Approccio federato: Google ha sperimentato l’apprendimento federato, che permette ai modelli di addestrarsi su dati decentralizzati senza trasferirli su server centrali.

Regolamentazione ed etica nell’uso dei dati

Con la crescente attenzione verso la privacy e la sicurezza dei dati, governi e istituzioni stanno lavorando a regolamentazioni per limitare l’uso incontrollato di dati sintetici. L’Unione Europea, con l’AI Act, sta stabilendo criteri più rigidi per l’addestramento dei modelli, mentre negli Stati Uniti si discute sulla necessità di etichettare i contenuti generati artificialmente.

Organizzazioni come DeepMind e OpenAI stanno promuovendo l’uso di dati tracciabili e verificabili, in modo da garantire che le AI del futuro siano più trasparenti, affidabili e meno soggette a manipolazioni.

E qui si capisce che siamo di fronte a un’altra contraddizione che genera controversie: come si possono usare dati sintetici se questi non rispettano le regolamentazioni? Queste regolamentazioni sono davvero in grado di distinguere dati umani da dati sintetici?

Ma quindi l’addestramento su dati sintetici renderà più stupide le AI o no?

Da quanto abbiamo visto, sappiamo che la risposta non è così semplice e netta. Da una parte ricorrere a dati sintetici può essere pratico e sotto alcuni aspetti incide positivamente sulle performance dei modelli; d’altra parte è dimostrato che un utilizzo massiccio ed esclusivo di dati sintetici rende le risposte delle AI ancora più inattendibili di quanto già molto spesso lo siano. Ti basta provare un qualsiasi modello e andare nel profondo per rendertene conto.

Per questi motivi è importante, da parte dei fruitori, imparare innanzitutto a generare prompt esatti. Le AI, certo, si stanno via via raffinando per avvicinarsi ai livelli umani di comprensione del linguaggio naturale, attraverso reti neurali e tecniche avanzate di machine learning e deep learning.

Ma siamo sempre noi umani – oggi – che dobbiamo guidare adeguatamente i modelli a darci le risposte che vogliamo e a verificarle.

E questo è solo un passo che possiamo fare noi in prima persona per testare direttamente.

Per il resto, continueremo a osservare cosa accade e naturalmente ad aggiornarti!

Condividi l’articolo:

Forse potrebbero interessarti anche

Intelligenza Artificiale

Intelligenza artificiale per aziende: perché pensarci due volte

L'innovazione va sempre inseguita? Qui ti diamo buoni motivi per pensarci due volte prima di integrare l'intelligenza artificiale nella tua azienda.

SEO e SEA

Il traffico organico crolla: ma è davvero un problema?

Se ti sei sempre affidato al traffico organico per misurare la validità e l'impatto dei tuoi contenuti digitali comincia a ricrederti subito: l'aria è cambiata.

Intelligenza Artificiale

Conviene fare SEO con l’intelligenza artificiale agentica?

Per rispondere a questa domanda, esaminiamo le attuali capacità dell'intelligenza artificiale agentica in un lavoro SEO: consiglio spassionato? Scegli le vie di mezzo e mantieni sempre il controllo umano!

Intelligenza Artificiale

Cosa (non) si può fare con l’intelligenza artificiale agentica

L'intelligenza artificiale agentica con le sue potenzialità di automazione avanzata promette risparmi di tempo ed evoluzione. Ma non tutto si può e si dovrebbe delegare a un'agente IA: vuoi trovare una quadratura? Allora continua a leggere.

Intelligenza Artificiale

I 5 agenti AI che rivoluzionano il marketing

Siamo in una nuova epoca dell'automazione digitale: oggi agenti AI sono capaci di eseguire compiti complessi a partire da un solo prompt ed esistono centinaia di piattaforme e suite per orchestrare strumenti di ogni tipo e diverse AI insieme. Vediamo le 5 che stanno rivoluzionando il marketing digitale: sogniamo un po' per poi ritornare con i piedi per terra parlando dei rischi correlati.

Intelligenza Artificiale

IA agentica: una macchina più intelligente e più autonoma?

L'IA agentica è più intelligente e autonoma delle solite IA generative: al punto che ne utilizza tante insieme per arrivare all'obiettivo che le hai dato. Insieme a qualsiasi tool e software che ti possa venire in mente. Ma è davvero una bacchetta magica o ha ancora grossi limiti?

Intelligenza Artificiale

L’AI è una minaccia reale per il content creator?

Sei un content creator che ha paura di perdere il lavoro per colpa dell'AI? O sei il suo ex cliente che oggi si fa ogni contenuto con l'AI? Parliamone tutti insieme.

Intelligenza Artificiale

L’AI farà il lavoro dello sviluppatore web?

Oggi il fantasma della sostituzione si mette dietro le spalle dello sviluppatore: l'AI già sostituisce il suo lavoro? La sostituzione è solo uno spettro pieno di sfumature? Lo sviluppatore web come può evitare di rimanere al palo?

Intelligenza Artificiale

L’IA può soppiantare i social media manager?

Il social media manager è tra le professioni più recenti e incomprese del mondo digitale: l'IA può già soppiantare tutti coloro che in questi anni si sono impegnati a sviluppare competenze e crearsi una reputazione?

Intelligenza Artificiale

I video con AI manderanno a casa i professionisti?

Oggi i video con AI sono sempre più facili da realizzare e i risultati a volte spaventano per quanto sono fatti bene. Sui set ormai girano videocamere intelligenti e automatizzate. Ma un conto è la tecnica, un conto è la percezione. Professionisti video: il vostro settore ha visto un sacco di innovazioni. La differenza tra chi verrà sostituito e no sta nell'adattamento, sta in come giocherete con la conoscenza e con la percezione, così come è sempre stato. Nessun'ondata porta via ogni cosa.

Noi di Kilobit siamo una rete di professionisti con esperienza nella programmazione, nel marketing digitale, nella realizzazione di prodotti multimediali e nella stesura di contenuti in chiave SEO.

Mettiamo a disposizione la nostra decennale esperienza nei vari settori per un servizio personalizzato a 360°. Abbiamo gli strumenti adatti a far approdare e decollare la tua impresa sul web.

Tel. 0110268815
info@kilobit.it
Via Luigi Cibrario, 40 10144 TORINO