Dados humanos para treinar o inteligências artificiais eles estão acabando e a solução parece estar nos dados sintéticos.
Esta dinâmica alarmante foi bem evidenciada por figuras como Elon Musk (há um Artigo do Guardian neste sentido) e entre outros também por Ilya Sutskever, cofundador da OpenAI…então de um dos grande tecnologia IA mais desenvolvido e influente do mundo.
Este facto não nos deve surpreender, porque era previsível. Mas isso é apenas alarmismo ou um problema real?
Índice de conteúdos
Estamos realmente ficando sem dados humanos?
As extraordinárias capacidades de processamento dos modelos permitem um treinamento muito rápido. Em essência, em poucos meses, é possível treinar uma IA em vários petabytes de dados úteis (um petabyte equivalente a um milhão de gigabytes).
No entanto, estima-se que a Os dados humanos globais na web são de cerca de 200 zettabytes (cada zettabyte equivalente a um milhão de petabytes).
E isso pode nos fazer pensar que as notícias são mentira. Em termos práticos, 1 zetabytes é uma quantidade enorme de dados. Por exemplo, se um petabyte é igual a cerca de 500 bilhões de páginas de texto, tem zettabyte poderia conter todo o conteúdo escrito na história da humanidade milhares de vezes.
Mas não nos deixemos impressionar. Os números considerados na prática são decididamente inferiores. Na verdade, os dados utilizáveis são bastante reduzidos devido à enorme quantidade de dados presentes na web:
- Dados duplicados,
- Conteúdo privado e protegido por direitos autorais,
- Dados de baixa qualidade.
Então sim: é perfeitamente plausível que os dados humanos úteis estejam se esgotando.
É por isso que a indústria da IA está cada vez mais a olhar seriamente para a adoção de dados sintéticos:mas o que são esses dados sintéticos? Qual é o problema?
O que são dados sintéticos e por que eles são usados?
Os dados sintéticos são informações geradas artificialmente por algoritmos, simulações ou outras inteligências artificiais, em vez de serem coletados de fontes humanas. Eles são usados para:
- Amplie conjuntos de dados existentes quando os dados do mundo real forem limitados.
- Evite preocupações com privacidade eliminando a necessidade de usar dados confidenciais.
- Melhore a diversidade de dados para reduzir o viés do modelo.
Empresas como a OpenAI, a Google e a Meta já estão a experimentar a utilização de dados sintéticos para treinar modelos avançados: dentro de alguns anos, portanto, a maioria dos conjuntos de dados utilizados para a IA poderão ser constituídos por dados inteiramente sintéticos.
O risco do “modelo que se auto-treina”
Um dos principais perigos do uso excessivo de dados sintéticos é o fenômeno conhecido como Modelo Recolhido. Se uma IA for treinada com dados gerados por outras IAs, ela pode desenvolver conhecimento “reciclado”, perdendo progressivamente a capacidade de produzir conteúdo inovador e preciso.
Um relatório publicado pela ArXiv destaca que a reutilização contínua de dados sintéticos leva a uma degradação da qualidade do modelo, tornando as respostas cada vez mais distorcidas e menos aderentes à realidade.
Então quais são os riscos concretos desse mecanismo?
- Viés amplificado: sem intervenção humana, um modelo corre o risco de reforçar seus erros e distorcer a realidade.
- Perda de criatividade e inovação: A IA pode gerar respostas cada vez mais previsíveis e menos originais.
- Efeito “circuito fechado”:Se uma IA for treinada apenas com dados gerados por outras IAs, ela poderá desenvolver uma linguagem menos realista.
Como podemos ver – especialmente em relação aos vieses – algumas contradições surgem com o próprio propósito por trás de um certo uso de dados sintéticos.
Alucinações e perda de confiabilidade
As IAs já sofrem de alucinações, ou respostas incorretas ou inventadas.
O uso de dados sintéticos pode agravar o problema, tornando cada vez mais difícil distinguir entre informações reais e artificiais.
O futuro do treinamento em IA: o que vem pela frente?
Com o esgotamento de dados humanos de qualidade e a crescente dependência de dados sintéticos, o futuro do treinamento de IA está em uma encruzilhada. Especialistas estão se perguntando quais estratégias podem garantir o progresso da IA sem comprometer sua confiabilidade e precisão.
Estratégias alternativas aos dados sintéticos
Como os dados sintéticos podem ser úteis, mas controversos, muitas empresas estão buscando novas maneiras de coletar dados reais sem violar a privacidade ou incorrer em restrições legais. Algumas das soluções possíveis incluem:
- Interações diretas com usuários:Gigantes da tecnologia estão explorando maneiras de coletar dados diretamente dos usuários por meio de conversas com chatbot e modelos interativos.
- Parcerias com empresas e instituições: O acesso a bancos de dados científicos, jornalísticos e acadêmicos pode fornecer novas fontes de dados de alta qualidade.
- Abordagem federada: O Google fez experiências com aprendizado federado, que permite que modelos sejam treinados em dados descentralizados sem transferi-los para servidores centrais.
Regulamentação e ética no uso de dados
Com a crescente preocupação com a privacidade e segurança de dados, governos e instituições estão trabalhando em regulamentações para limitar o uso descontrolado de dados sintéticos. A União Europeia, com aLei de IA, está definindo critérios mais rigorosos para modelos de treinamento, enquanto nos Estados Unidos há um debate sobre a necessidade de rotular conteúdo gerado artificialmente.
Organizações como DeepMind e OpenAI estão promovendo o uso de dados rastreáveis e verificáveis, a fim de garantir que as IAs do futuro sejam mais transparente, confiável e menos sujeito a manipulação.
E aqui entendemos que estamos diante de outra contradição que gera polêmica: como utilizar dados sintéticos se eles não atendem às normas? Essas regulamentações são realmente capazes de distinguir dados humanos de dados sintéticos?
Então, o treinamento em dados sintéticos tornará as IAs mais burras ou não?
Pelo que vimos, sabemos que a resposta não é tão simples e clara. Por um lado, o uso de dados sintéticos pode ser prático e, em alguns aspectos, tem um impacto positivo no desempenho dos modelos; por outro lado, é demonstrado que o uso massivo e exclusivo de dados sintéticos torna as respostas da IA ainda mais pouco confiáveis do que muitas vezes já são. Basta experimentar qualquer modelo e se aprofundar para realizá-lo.
Por estas razões é importante que os utilizadores aprenda a gerar prompts precisos primeiro. A IA, é claro, está sendo gradualmente refinada para se aproximar dos níveis humanos de compreensão da linguagem natural, por meio de redes neurais e técnicas avançadas de aprendizado de máquina e deep learning.
Mas somos sempre nós, humanos – hoje – que devemos orientar adequadamente os modelos para nos dar as respostas que queremos e verificá-las.
E esse é apenas um passo que podemos dar para testar diretamente.
De resto, continuaremos observando o que acontece e, claro, atualizando vocês!