As ferramentas de IA estão ficando sem dados de treinamento, mas existem 6 soluções

Primeira página > IA > As ferramentas de IA estão ficando sem dados de treinamento, mas existem 6 soluções

As ferramentas de IA estão ficando sem dados de treinamento, mas existem 6 soluções

Publicado em 2024-07-29

Navegar:237

A inteligência artificial precisa de dados de treinamento, mas esses dados são limitados. Então, de que outra forma podemos treinar a IA para que ela continue a crescer e a ser útil para nós?

Você pode pensar que a Internet e seus dados são recursos inesgotáveis, mas as ferramentas de IA estão ficando sem dados para extrair. Agora, antes que você se preocupe, isso não vai impedir o desenvolvimento da IA – ainda há muitos dados prontos para treinar sistemas de IA.

1 Há sempre mais dados adicionados online

Em suma, o instituto de pesquisa de IA Epoch afirma que os dados de alta qualidade sobre os quais a IA está sendo treinada podem acabar até 2026.

A palavra-chave é “poderia”. A quantidade de dados adicionados à Internet aumenta todos os anos, pelo que algo drástico pode mudar antes de 2026. Ainda assim, é uma estimativa justa – de qualquer forma, os sistemas de IA ficarão sem dados bons em algum momento.

Devemos lembrar, entretanto, que cerca de 147 zettabytes de dados são adicionados online todos os anos (conforme Exploding Topics). Apenas um zetabyte é igual a 1.000.000.000.000.000.000.000 bits de dados. Em termos reais (bem, um tanto reais), são mais de 30 bilhões de filmes em 4K (reais, mas incompreensíveis). É uma quantidade surpreendente de informações para a IA analisar.

No entanto, a IA consome dados mais rápido do que a humanidade pode criá-los…

2 A IA pode esquecer dados de baixa qualidade

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

Nem todos esses 147 zetabytes de dados são bons dados, é claro. Há muito mais do que aparenta. Mas estima-se que a IA também terá consumido dados linguísticos de baixa qualidade até 2050.

A Reuters informou que o Photobucket, que já foi um dos maiores repositórios de imagens do mundo, estava em negociações para licenciar sua extensa biblioteca para empresas de treinamento em IA. Os dados de imagem treinaram sistemas como DALL-E e Midjourney, mas mesmo isso pode acabar até 2060. Há um problema maior aqui também: o Photobucket abrigava imagens de plataformas de mídia social dos anos 2000, como o MySpace, o que significa que elas não têm um padrão tão alto quanto fotografia atual. Isso leva a dados de baixa qualidade.

O Photobucket não está sozinho. Em fevereiro de 2024, o Google fechou um acordo com o Reddit, permitindo que o gigante das buscas usasse os dados do usuário da plataforma de mídia social em seu treinamento de IA. Outras plataformas de mídia social também fornecem dados de usuários para fins de treinamento em IA; alguns estão usando-o para treinar modelos internos de IA, como o Llama da Meta.

No entanto, embora algumas informações possam ser obtidas de dados de baixa qualidade, a Microsoft está supostamente desenvolvendo uma maneira de a IA “desaprender” seletivamente os dados. Principalmente, isso seria usado para questões de IP, mas também poderia significar que as ferramentas podem esquecer o que aprenderam com conjuntos de dados de baixa qualidade.

Poderíamos alimentar a IA com mais dados sem sermos muito seletivos; esses sistemas de IA poderiam então escolher o que é mais benéfico para aprender.

3 O reconhecimento de fala abre dados de vídeo e podcast

Os dados alimentados para ferramentas de IA até agora consistiam principalmente em texto e, em menor grau, em imagens. Sem dúvida, isso mudará, e provavelmente já mudou, pois o software de reconhecimento de fala significará que a riqueza de vídeos e podcasts disponíveis também pode treinar a IA.

Notavelmente, a OpenAI desenvolveu a rede neural de reconhecimento automático de fala (ASR) de código aberto, Whisper, usando 680.000 horas de dados multilíngues e multitarefa. A OpenAI então alimentou mais de um milhão de horas de informações de vídeos do YouTube em seu grande modelo de linguagem, GPT-4.

Este é um modelo ideal para outros sistemas de IA, que usam reconhecimento de fala para transcrever vídeos e áudio de diversas fontes e executar esses dados por meio de seus modelos de IA.

De acordo com o Statista, mais de 500 horas de vídeo são enviadas ao YouTube a cada minuto, um número que permanece bastante consistente desde 2019. Isso sem mencionar outras plataformas de vídeo e áudio como Dailymotion e Podbean. Se a IA puder voltar sua atenção para novos conjuntos de dados como esses, ainda haverá uma enorme quantidade de informações a serem exploradas.

4 IAs se apegaram em grande parte ao idioma inglês

Isso não é tudo que podemos aprender com o Whisper. A OpenAI treinou o modelo usando 117.000 horas de dados de áudio em idiomas diferentes do inglês. Isto é especialmente interessante porque muitos sistemas de IA foram treinados principalmente usando o inglês ou visualizando outras culturas através das lentes ocidentais.

Em essência, a maioria das ferramentas é limitada pela cultura de seus criadores.

Veja o ChatGPT como exemplo. Pouco depois de seu lançamento em 2022, Jill Walker Rettberg, professora de Cultura Digital da Universidade de Bergen, Noruega, experimentou o ChatGPT e concluiu:

“O ChatGPT não sabe muito sobre a cultura norueguesa. Ou melhor, tudo o que sabe sobre a cultura norueguesa é presumivelmente aprendido principalmente a partir de fontes de língua inglesa… O ChatGPT está explicitamente alinhado com os valores e leis dos EUA. Em muitos casos, estes estão próximos dos valores noruegueses e europeus, mas presumivelmente nem sempre será esse o caso.”

IAs, então, podem se desenvolver quanto mais pessoas multinacionais interagirem com elas – ou quanto mais diversas línguas e culturas forem usadas para treinar tais sistemas. Neste momento, muitas inteligências artificiais estão confinadas a uma única biblioteca; eles podem crescer se receberem as chaves de bibliotecas em todo o mundo.

5 editoras podem ajudar a desenvolver IAs

IP é obviamente um grande problema, mas algumas editoras poderiam ajudar a desenvolver IAs fazendo acordos de licenciamento. Isso significaria fornecer ferramentas de dados de livros de alta qualidade, ou seja, confiáveis, em vez de informações potencialmente de baixa qualidade obtidas de fontes on-line.

Na verdade, a Meta, proprietária do Facebook, Instagram e WhatsApp, teria considerado comprar a Simon & Schuster, uma das "Cinco Grandes" editoras. A ideia era usar a literatura publicada pela empresa para treinar a própria IA da Meta. O acordo acabou fracassando, talvez devido à área ética cinzenta da empresa que processa IPs sem o consentimento prévio dos redatores.

Outra opção aparentemente considerada foi comprar direitos de licenciamento individuais de novos títulos. Isso deve causar grandes preocupações para os criativos, mas ainda será uma maneira interessante de desenvolver ferramentas de IA se os dados utilizáveis se esgotarem.

6 Dados sintéticos são o futuro

Todas as outras soluções ainda são limitadas, mas uma opção pode fazer com que a IA prospere no futuro: dados sintéticos. E já está sendo investigado como uma possibilidade muito real.

Então, o que são dados sintéticos? Nesse sentido, são dados criados pela IA; assim como os humanos criam dados, este método faria com que a inteligência artificial gerasse dados para fins de treinamento.

Na verdade, uma IA poderia criar um vídeo deepfake convincente. Esse vídeo deepfake poderia ser realimentado em uma IA para que ela pudesse aprender com o que é essencialmente um cenário imaginário. Afinal, essa é uma das principais maneiras pelas quais os humanos aprendem: lemos ou assistimos algo para compreender o mundo que nos rodeia.

É provável que as IAs já tenham consumido informações sintéticas. Deepfakes que circulam online espalham desinformação e desinformação, portanto, à medida que os sistemas de IA examinam a Internet, faz sentido que alguns tenham sido sujeitos a conteúdo falsificado.

Sim, há um lado insidioso nisso. Também poderia danificar ou limitar as IA, reforçando e difundindo erros cometidos por essas ferramentas. As empresas estão a trabalhar para erradicar este último problema; ainda assim, "IAs aprendendo umas com as outras e cometendo erros" é um ponto de virada de muitos cenários de pesadelo de ficção científica.

7

IA é controversa. Há muitas desvantagens nisso, mas os detratores ignoram seus benefícios. Por exemplo, a rede de auditoria e consultoria PwC [PDF] sugere que a IA poderá contribuir com até 15,7 biliões de dólares para a economia mundial até 2030.

Além disso, a IA já está a ser utilizada em todo o mundo. Você provavelmente já o usou hoje de uma forma ou de outra, talvez sem perceber. Agora que o gênio saiu da garrafa, a chave é certamente treiná-lo com dados confiáveis e de qualidade para que possamos fazer uso adequado deles.

A IA tem seus pontos positivos e negativos. Há um equilíbrio a ser encontrado.

Declaração de lançamento Este artigo foi reproduzido em: https://www.makeuseof.com/ai-running-out-training-data-solutions/ Se houver alguma violação, entre em contato com [email protected] para excluí-lo

Tutorial mais recente Mais>

Algoritmos de inteligência de enxames: três implementações do Python
Imagine watching a flock of birds in flight. There's no leader, no one giving directions, yet they swoop and glide together in perfect harmony. It may...

IA Postado em 2025-03-24
Como tornar seu LLM mais preciso com pano e ajuste fino
Imagine studying a module at university for a semester. At the end, after an intensive learning phase, you take an exam – and you can recall th...

IA Postado em 2025-03-24
O que é o Google Gemini? Tudo o que você precisa saber sobre o rival ChatGPT do Google
Google recently released its new Generative AI model, Gemini. It results from a collaborative effort by a range of teams at Google, including members ...

IA Postado em 2025-03-23
Guia sobre solicitação com DSPY
dspy: uma estrutura declarativa para a construção e melhoria de aplicativos LLM DSPY (programas de idiomas auto-improvantes declarativos) revolucio...

IA Postado em 2025-03-22
Automatize o blog para o tópico do Twitter
Este artigo detalha automatização da conversão de conteúdo de formato longo (como postagens de blog) em tópicos envolventes no Twitter usando o gemin...

IA Postado em 2025-03-11
Sistema imunológico artificial (AIS): um guia com exemplos de python
Este artigo explora sistemas imunológicos artificiais (AIS), modelos computacionais inspirados na notável capacidade do sistema imunológico humano de...

IA Postado em 2025-03-04
Tente fazer ao ChatGPT estas perguntas divertidas sobre você
Já se perguntou o que o ChatGPT sabe sobre você? Como ele processa as informações que você forneceu ao longo do tempo? Eu usei montes de ChatGPT em di...

IA Publicado em 2024-11-22
Veja como você ainda pode experimentar o misterioso chatbot GPT-2
Se você gosta de modelos de IA ou chatbots, talvez já tenha visto discussões sobre o misterioso chatbot GPT-2 e sua eficácia.Aqui, explicamos o que é ...

IA Publicado em 2024-11-08
O modo Canvas do ChatGPT é ótimo: estas são 4 maneiras de usá-lo
O novo modo Canvas do ChatGPT adicionou uma dimensão extra à escrita e edição na ferramenta de IA generativa líder mundial. Tenho usado o ChatGPT Canv...

IA Publicado em 2024-11-08
Como os GPTs personalizados do ChatGPT podem expor seus dados e como mantê-los seguros
O recurso GPT personalizado do ChatGPT permite que qualquer pessoa crie uma ferramenta de IA personalizada para quase tudo que você possa imaginar; G...

IA Publicado em 2024-11-08
10 maneiras pelas quais o ChatGPT pode ajudá-lo a conseguir um emprego no LinkedIn
Com 2.600 caracteres disponíveis, a seção Sobre do seu perfil do LinkedIn é um ótimo espaço para falar sobre sua experiência, habilidades, paixões e ...

IA Publicado em 2024-11-08
Confira estes 6 aplicativos de IA menos conhecidos que oferecem experiências únicas
Neste ponto, a maioria das pessoas já ouviu falar do ChatGPT e do Copilot, dois aplicativos pioneiros de IA generativa que lideraram o boom da IA.Mas ...

IA Publicado em 2024-11-08
Estes 7 sinais mostram que já atingimos o pico da IA
Onde quer que você olhe on-line, há sites, serviços e aplicativos que proclamam que o uso da IA a torna a melhor opção. Não sei sobre você, mas sua ...

IA Publicado em 2024-11-08
4 ferramentas de detecção de ChatGPT de verificação de IA para professores, palestrantes e chefes
À medida que o ChatGPT avança em poder, fica cada vez mais difícil dizer o que é escrito por um ser humano e o que é gerado por uma IA. Isso torna di...

IA Publicado em 2024-11-08
O recurso avançado de voz do ChatGPT está sendo lançado para mais usuários
Se você sempre quis ter uma conversa completa com o ChatGPT, agora você pode. Isto é, desde que você pague pelo privilégio de usar o ChatGPT. Mais usu...

IA Publicado em 2024-11-08

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo