A inteligência artificial precisa de dados de treinamento, mas esses dados são limitados. Então, de que outra forma podemos treinar a IA para que ela continue a crescer e a ser útil para nós?
Você pode pensar que a Internet e seus dados são recursos inesgotáveis, mas as ferramentas de IA estão ficando sem dados para extrair. Agora, antes que você se preocupe, isso não vai impedir o desenvolvimento da IA – ainda há muitos dados prontos para treinar sistemas de IA.
Em suma, o instituto de pesquisa de IA Epoch afirma que os dados de alta qualidade sobre os quais a IA está sendo treinada podem acabar até 2026.
A palavra-chave é “poderia”. A quantidade de dados adicionados à Internet aumenta todos os anos, pelo que algo drástico pode mudar antes de 2026. Ainda assim, é uma estimativa justa – de qualquer forma, os sistemas de IA ficarão sem dados bons em algum momento.
Devemos lembrar, entretanto, que cerca de 147 zettabytes de dados são adicionados online todos os anos (conforme Exploding Topics). Apenas um zetabyte é igual a 1.000.000.000.000.000.000.000 bits de dados. Em termos reais (bem, um tanto reais), são mais de 30 bilhões de filmes em 4K (reais, mas incompreensíveis). É uma quantidade surpreendente de informações para a IA analisar.
No entanto, a IA consome dados mais rápido do que a humanidade pode criá-los…
Nem todos esses 147 zetabytes de dados são bons dados, é claro. Há muito mais do que aparenta. Mas estima-se que a IA também terá consumido dados linguísticos de baixa qualidade até 2050.
A Reuters informou que o Photobucket, que já foi um dos maiores repositórios de imagens do mundo, estava em negociações para licenciar sua extensa biblioteca para empresas de treinamento em IA. Os dados de imagem treinaram sistemas como DALL-E e Midjourney, mas mesmo isso pode acabar até 2060. Há um problema maior aqui também: o Photobucket abrigava imagens de plataformas de mídia social dos anos 2000, como o MySpace, o que significa que elas não têm um padrão tão alto quanto fotografia atual. Isso leva a dados de baixa qualidade.
O Photobucket não está sozinho. Em fevereiro de 2024, o Google fechou um acordo com o Reddit, permitindo que o gigante das buscas usasse os dados do usuário da plataforma de mídia social em seu treinamento de IA. Outras plataformas de mídia social também fornecem dados de usuários para fins de treinamento em IA; alguns estão usando-o para treinar modelos internos de IA, como o Llama da Meta.
No entanto, embora algumas informações possam ser obtidas de dados de baixa qualidade, a Microsoft está supostamente desenvolvendo uma maneira de a IA “desaprender” seletivamente os dados. Principalmente, isso seria usado para questões de IP, mas também poderia significar que as ferramentas podem esquecer o que aprenderam com conjuntos de dados de baixa qualidade.
Poderíamos alimentar a IA com mais dados sem sermos muito seletivos; esses sistemas de IA poderiam então escolher o que é mais benéfico para aprender.
Os dados alimentados para ferramentas de IA até agora consistiam principalmente em texto e, em menor grau, em imagens. Sem dúvida, isso mudará, e provavelmente já mudou, pois o software de reconhecimento de fala significará que a riqueza de vídeos e podcasts disponíveis também pode treinar a IA.
Notavelmente, a OpenAI desenvolveu a rede neural de reconhecimento automático de fala (ASR) de código aberto, Whisper, usando 680.000 horas de dados multilíngues e multitarefa. A OpenAI então alimentou mais de um milhão de horas de informações de vídeos do YouTube em seu grande modelo de linguagem, GPT-4.
Este é um modelo ideal para outros sistemas de IA, que usam reconhecimento de fala para transcrever vídeos e áudio de diversas fontes e executar esses dados por meio de seus modelos de IA.
De acordo com o Statista, mais de 500 horas de vídeo são enviadas ao YouTube a cada minuto, um número que permanece bastante consistente desde 2019. Isso sem mencionar outras plataformas de vídeo e áudio como Dailymotion e Podbean. Se a IA puder voltar sua atenção para novos conjuntos de dados como esses, ainda haverá uma enorme quantidade de informações a serem exploradas.
Isso não é tudo que podemos aprender com o Whisper. A OpenAI treinou o modelo usando 117.000 horas de dados de áudio em idiomas diferentes do inglês. Isto é especialmente interessante porque muitos sistemas de IA foram treinados principalmente usando o inglês ou visualizando outras culturas através das lentes ocidentais.
Em essência, a maioria das ferramentas é limitada pela cultura de seus criadores.
Veja o ChatGPT como exemplo. Pouco depois de seu lançamento em 2022, Jill Walker Rettberg, professora de Cultura Digital da Universidade de Bergen, Noruega, experimentou o ChatGPT e concluiu:
“O ChatGPT não sabe muito sobre a cultura norueguesa. Ou melhor, tudo o que sabe sobre a cultura norueguesa é presumivelmente aprendido principalmente a partir de fontes de língua inglesa… O ChatGPT está explicitamente alinhado com os valores e leis dos EUA. Em muitos casos, estes estão próximos dos valores noruegueses e europeus, mas presumivelmente nem sempre será esse o caso.”
IAs, então, podem se desenvolver quanto mais pessoas multinacionais interagirem com elas – ou quanto mais diversas línguas e culturas forem usadas para treinar tais sistemas. Neste momento, muitas inteligências artificiais estão confinadas a uma única biblioteca; eles podem crescer se receberem as chaves de bibliotecas em todo o mundo.
IP é obviamente um grande problema, mas algumas editoras poderiam ajudar a desenvolver IAs fazendo acordos de licenciamento. Isso significaria fornecer ferramentas de dados de livros de alta qualidade, ou seja, confiáveis, em vez de informações potencialmente de baixa qualidade obtidas de fontes on-line.
Na verdade, a Meta, proprietária do Facebook, Instagram e WhatsApp, teria considerado comprar a Simon & Schuster, uma das "Cinco Grandes" editoras. A ideia era usar a literatura publicada pela empresa para treinar a própria IA da Meta. O acordo acabou fracassando, talvez devido à área ética cinzenta da empresa que processa IPs sem o consentimento prévio dos redatores.
Outra opção aparentemente considerada foi comprar direitos de licenciamento individuais de novos títulos. Isso deve causar grandes preocupações para os criativos, mas ainda será uma maneira interessante de desenvolver ferramentas de IA se os dados utilizáveis se esgotarem.
Todas as outras soluções ainda são limitadas, mas uma opção pode fazer com que a IA prospere no futuro: dados sintéticos. E já está sendo investigado como uma possibilidade muito real.
Então, o que são dados sintéticos? Nesse sentido, são dados criados pela IA; assim como os humanos criam dados, este método faria com que a inteligência artificial gerasse dados para fins de treinamento.
Na verdade, uma IA poderia criar um vídeo deepfake convincente. Esse vídeo deepfake poderia ser realimentado em uma IA para que ela pudesse aprender com o que é essencialmente um cenário imaginário. Afinal, essa é uma das principais maneiras pelas quais os humanos aprendem: lemos ou assistimos algo para compreender o mundo que nos rodeia.
É provável que as IAs já tenham consumido informações sintéticas. Deepfakes que circulam online espalham desinformação e desinformação, portanto, à medida que os sistemas de IA examinam a Internet, faz sentido que alguns tenham sido sujeitos a conteúdo falsificado.
Sim, há um lado insidioso nisso. Também poderia danificar ou limitar as IA, reforçando e difundindo erros cometidos por essas ferramentas. As empresas estão a trabalhar para erradicar este último problema; ainda assim, "IAs aprendendo umas com as outras e cometendo erros" é um ponto de virada de muitos cenários de pesadelo de ficção científica.
IA é controversa. Há muitas desvantagens nisso, mas os detratores ignoram seus benefícios. Por exemplo, a rede de auditoria e consultoria PwC [PDF] sugere que a IA poderá contribuir com até 15,7 biliões de dólares para a economia mundial até 2030.
Além disso, a IA já está a ser utilizada em todo o mundo. Você provavelmente já o usou hoje de uma forma ou de outra, talvez sem perceber. Agora que o gênio saiu da garrafa, a chave é certamente treiná-lo com dados confiáveis e de qualidade para que possamos fazer uso adequado deles.
A IA tem seus pontos positivos e negativos. Há um equilíbrio a ser encontrado.
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3