"Se um trabalhador quiser fazer bem o seu trabalho, ele deve primeiro afiar suas ferramentas." - Confúcio, "Os Analectos de Confúcio. Lu Linggong"
Primeira página > IA > GPT-5: 4 novos recursos que queremos ver

GPT-5: 4 novos recursos que queremos ver

Publicado em 17/08/2024
Navegar:859

Pelo menos é isso que esperamos. Não há uma data de lançamento específica para o GPT-5, e muito do que pensamos que sabemos vem da reunião de outras informações e da tentativa de conectar os pontos.

Ainda assim, não importa a data de vencimento, existem alguns recursos principais que queremos ver quando o GPT-5 for lançado.

O que é o GPT-5 da OpenAI?

GPT-5 é o aguardado sucessor do modelo GPT-4 AI da OpenAI, amplamente esperado como o modelo generativo mais poderoso do mercado. Embora atualmente não haja uma data oficial de lançamento para o GPT-5, há indicações de que ele poderá ser lançado já no verão de 2024. Muito poucos detalhes sobre o modelo são conhecidos neste momento, mas várias coisas podem ser ditas com alguma quantidade de conhecimento. certeza:

OpenAI registrou uma marca registrada para o nome no Escritório de Marcas e Patentes dos Estados Unidos. Vários executivos da OpenAI discutiram ou sugeriram as possíveis capacidades do modelo. O CEO da OpenAI, Sam Altman, mencionou repetidamente o modelo durante uma entrevista no YouTube em março de 2024 com Lex Fridman.

Tudo isso aponta para uma realidade emocionante: o GPT-5 está chegando! Dito isto, muitas coisas são especulações neste momento. Mas há algumas coisas que esperamos ver e estamos bastante confiantes de ver no modelo. Aqui estão alguns deles:

1. Mais multimodalidade

GPT-5: 4 New Features We Want to See

Uma das melhorias mais interessantes na família GPT de modelos de IA tem sido a multimodalidade. Para maior clareza, multimodalidade é a capacidade de um modelo de IA de processar mais do que apenas texto, mas também outros tipos de entradas, como imagens, áudio e vídeo. A multimodalidade será uma importante referência de avanço para a família de modelos GPT daqui para frente.

Com o GPT-4 já apto a lidar com entradas e saídas de imagens, as melhorias que abrangem o processamento de áudio e vídeo são o próximo marco para OpenAI, e o GPT-5 é um bom lugar para começar. O Google já está fazendo grandes progressos nesse tipo de multimodalidade com seu modelo Gemini AI. Não seria característico da OpenAI não responder. Mas, claro, não acredite apenas na nossa palavra. Em seu podcast Unconfuse Me [transcrição em PDF], Bill Gates perguntou ao CEO da OpenAI, Sam Altman, quais marcos ele previu para a série GPT nos próximos dois anos. Sua primeira resposta? Processamento de vídeo.

Portanto, para o GPT-5, esperamos poder brincar com vídeos: enviar vídeos como prompts, criar vídeos em qualquer lugar, editar vídeos com prompts de texto, extrair segmentos de vídeos e encontrar cenas específicas de grandes arquivos de vídeo. Esperamos poder fazer coisas semelhantes aos arquivos de áudio. É uma grande pergunta, sim. Mas dada a rapidez do desenvolvimento da IA, é uma expectativa bastante razoável.

2. Janela de contexto maior e mais eficiente

GPT-5: 4 New Features We Want to See

Apesar de ser um dos modelos de IA mais sofisticados do mercado, a família GPT de modelos de IA tem uma das menores janelas de contexto. Por exemplo, o Claude 3 da Anthropic possui uma janela de contexto de 200.000 tokens, enquanto o Gemini do Google pode processar impressionantes 1 milhão de tokens (128.000 para uso padrão). Em contraste, o GPT-4 tem uma janela de contexto relativamente menor de 128.000 tokens, com aproximadamente 32.000 tokens ou menos disponíveis de forma realista para uso em interfaces como ChatGPT.

Com a multimodalidade avançada entrando em cena, uma janela de contexto aprimorada é quase inevitável. Talvez um aumento de um factor de dois ou quatro fosse suficiente, mas esperamos ver algo como um factor de dez. Isso permitirá que o GPT-5 processe muito mais informações de maneira muito mais eficiente. Agora, uma janela de contexto maior nem sempre significa melhor. Portanto, em vez de apenas aumentar a janela de contexto, gostaríamos de ver um aumento na eficiência do processamento de contexto.

Veja, um modelo pode ter uma janela de contexto de um milhão de tokens (capacidade de cerca de 700.000 palavras), mas não consegue produzir um resumo abrangente quando solicitado a resumir um livro de 500.000 palavras porque não pode processar adequadamente a totalidade do contexto, apesar de ter a capacidade de fazê-lo em teoria. O fato de você poder ler um livro de 500 mil palavras não significa que você possa se lembrar de tudo que está nele ou processá-lo de maneira sensata.

3. Agentes GPT

GPT-5: 4 New Features We Want to See

Talvez uma das possibilidades mais interessantes de um lançamento GPT-5 seja a estreia dos Agentes GPT. Embora o termo “virador de jogo” provavelmente tenha sido usado em demasia na IA, os agentes GPT seriam verdadeiramente revolucionários em todos os sentidos práticos. Mas até que ponto isso mudaria o jogo?

Atualmente, modelos de IA como GPT-4 podem ajudá-lo a concluir uma tarefa. Eles podem escrever um e-mail, contar uma piada, resolver um problema de matemática ou redigir uma postagem no blog para você. No entanto, eles só podem realizar essa tarefa específica e não podem concluir um conjunto de tarefas relacionadas que seriam necessárias para concluir o seu trabalho.

Digamos que você seja um desenvolvedor web. Como parte de seu trabalho, espera-se que você faça muitas coisas: projetar, escrever código, solucionar problemas e muito mais. Atualmente, você só pode delegar uma parte dessas tarefas aos modelos de IA por vez. Talvez você possa pedir ao modelo GPT-4 para escrever um código para a página inicial e, em seguida, pedir para a página de contato e, em seguida, para a página Sobre, etc. E há tarefas que os modelos simplesmente não conseguem concluir.

Esse processo iterativo de solicitar modelos de IA para subtarefas específicas é demorado e ineficiente. Nesse cenário, você — o desenvolvedor web — é o agente humano responsável por coordenar e solicitar aos modelos de IA uma tarefa por vez, até concluir um conjunto completo de tarefas relacionadas.

GPT Agents promete bots especializados especializados coordenados, esperançosamente, pelo GPT-5, capazes de auto-solicitar e lidar com todos os subconjuntos de uma tarefa complexa de forma autônoma. Ênfase em “auto-instrução” e “autônomo”.

Portanto, se o GPT-5 for fornecido com agentes GPT, você pode pedir para ele "criar um site de portfólio para Maxwell Timothy" em vez de apenas "escrever um código para a página inicial". O GPT-5 seria então, teoricamente, capaz de se auto-promover, invocando agentes especialistas em IA para lidar com as várias subtarefas necessárias para construir um site. Pode invocar um GPT para vasculhar a web em busca de informações sobre Maxwell Timothy, outro agente para escrever o código para páginas diferentes, outro agente para gerar e otimizar imagens e até mesmo outro agente de IA para implantar o site, tudo sem a necessidade de repetidas ações humanas. solicitando.

4. Menos alucinações

Embora a OpenAI tenha percorrido um longo caminho para lidar com alucinações em seus modelos de IA, o verdadeiro teste decisivo para o GPT-5 será sua capacidade de resolver o problema persistente de alucinações, o que impediu a adoção generalizada da IA ​​em domínios de alto risco e críticos para a segurança, como saúde, aviação e segurança cibernética. Todas estas são áreas que beneficiariam fortemente de um forte envolvimento da IA, mas que actualmente evitam qualquer adopção significativa.

Para maior clareza, alucinação neste contexto refere-se a situações em que o modelo de IA gera e apresenta informações que parecem plausíveis, mas completamente fabricadas, com um alto grau de confiança.

Imagine um cenário em que o GPT-4 esteja integrado a um sistema de diagnóstico para analisar sintomas de pacientes e relatórios médicos. Uma alucinação pode levar a IA a fornecer com segurança um diagnóstico incorreto ou a recomendar um tratamento potencialmente perigoso com base em fatos imaginados e lógica falsa. As consequências de tal erro na área médica podem ser catastróficas.

Reservas semelhantes se aplicam a outros campos de altas consequências, como aviação, energia nuclear, operações marítimas e segurança cibernética. Não esperamos que o GPT-5 resolva completamente o problema das alucinações, mas esperamos que reduza significativamente a possibilidade de tais incidentes.

Enquanto aguardamos ansiosamente o lançamento oficial deste tão aguardado modelo de IA, uma coisa é certa: o GPT-5 tem o potencial de redefinir os limites do que é possível com a inteligência artificial, inaugurando uma nova era de humanidade. -colaboração e inovação de máquinas.

Declaração de lançamento Este artigo foi reproduzido em: https://www.makeuseof.com/gpt-5-features-we-want-to-see/ Se houver alguma violação, entre em contato com [email protected] para excluí-lo
Tutorial mais recente Mais>

Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.

Copyright© 2022 湘ICP备2022001581号-3