Google Gemini 1.5 est désormais livré avec une énorme fenêtre contextuelle d'un million de jetons, éclipsant sa concurrence directe dans ChatGPT, Claude et d'autres chatbots IA.
Cela ressemble à une mise à niveau massive et pourrait distinguer les Gémeaux. Il est un peu difficile d'en saisir toute l'étendue, mais l'énorme fenêtre contextuelle de Gemini pourrait changer la donne.
Lorsqu'ils répondent à vos requêtes, comme expliquer un concept ou résumer un texte, les modèles d'IA ont une limite quant à la quantité de données qu'ils peuvent prendre en compte pour générer une réponse. La limite de la taille du texte qu'il peut prendre en compte est appelée fenêtre contextuelle.
Voici une autre façon de voir les choses. Disons que vous allez dans une épicerie pour faire vos courses sans votre liste d'épicerie. La limite du nombre de produits d'épicerie dont vous vous souvenez lorsque vous faites vos courses est votre fenêtre contextuelle. Plus vous vous souvenez de courses, plus vous avez de chances de ne pas gâcher vos projets d'achats. De même, plus la fenêtre contextuelle d'un modèle d'IA est grande, plus le modèle a de chances de se souvenir de tout ce dont il a besoin pour vous fournir les meilleurs résultats.
Au moment de la rédaction, la fenêtre contextuelle de 200 000 d'Anthropic Claude 2.1 est la plus grande fenêtre contextuelle de tous les modèles d'IA généralement disponibles. Vient ensuite GPT-4 Turbo avec une fenêtre contextuelle de 128 Ko. Google Gemini 1.5 apporte une fenêtre contextuelle d'un million, quatre fois plus grande que tout ce qui existe sur le marché. Cela nous amène à la grande question : quel est le problème avec une fenêtre contextuelle d'un million de jetons ?
Pour le mettre dans une perspective plus claire, la fenêtre contextuelle de 200 000 de Claude AI signifie qu'elle peut digérer un livre d'environ 150 000 mots et y apporter des réponses. C'est énorme. Mais le Gemini 1.5 de Google serait capable de digérer 700 000 mots d'un coup !
Lorsque vous introduisez un gros bloc de texte dans des chatbots IA comme ChatGPT ou Gemini, il tente de digérer autant de texte que possible, mais la quantité qu'il peut digérer dépend de sa fenêtre contextuelle. Ainsi, si vous avez une conversation qui comprend 100 000 mots sur un modèle qui ne peut en gérer que 28 000 et que vous commencez ensuite à poser des questions qui nécessitent une connaissance complète de l'ensemble des 100 000 mots de la conversation, vous la préparez à l'échec.
Imaginez que vous regardiez seulement 20 minutes d'un film d'une heure, mais qu'on vous demande d'expliquer l'intégralité du film. Quels seraient vos résultats ? Soit vous refusez de répondre, soit vous inventez simplement des choses, ce qui est exactement ce que ferait un chatbot IA, conduisant à des hallucinations IA.
Maintenant, si vous pensez que vous n'avez jamais eu à introduire 100 000 mots dans un chatbot, ce n'est pas toute la considération. La fenêtre contextuelle transcende uniquement le texte que vous alimentez avec un modèle d'IA en une seule invite. Les modèles d'IA prennent en compte l'ensemble de la conversation que vous avez eue au cours d'une session de chat pour garantir que leurs réponses sont aussi pertinentes que possible.
Ainsi, même si vous ne lui donnez pas un livre de 100 000 mots, vos échanges et les réponses qu'il fournit s'ajoutent tous au calcul de la fenêtre contextuelle. Vous vous demandez pourquoi ChatGPT ou Gemini de Google continuent d'oublier les choses que vous lui avez dites plus tôt dans une conversation ? Il a probablement manqué d'espace dans la fenêtre de contexte et a commencé à oublier des choses.
Une fenêtre contextuelle plus grande est particulièrement importante pour les tâches nécessitant une compréhension approfondie du contexte, telles que résumer de longs articles, répondre à des questions complexes ou maintenir un récit cohérent dans le texte généré. Vous voulez écrire un roman de 50 000 mots avec une narration cohérente tout au long ? Vous voulez un modèle capable de « regarder » et de répondre aux questions sur un fichier vidéo d'une heure ? Vous avez besoin d'une fenêtre contextuelle plus grande !
En bref, la fenêtre contextuelle plus grande de Gemini 1.5 peut améliorer considérablement les performances de son modèle d'IA, réduisant les hallucinations et augmentant considérablement la précision et la capacité à mieux suivre les instructions.
Si tout se passe comme prévu, Gemini 1.5 pourrait potentiellement surpasser les meilleurs modèles d'IA du marché. Cependant, compte tenu des nombreux échecs de Google dans la création d’un modèle d’IA stable, il est important de faire preuve de prudence. Augmenter la fenêtre contextuelle d'un modèle à lui seul n'améliore pas automatiquement le modèle.
J'utilise la fenêtre contextuelle de 200 000 de Claude 2.1 depuis des mois depuis sa sortie, et une chose est claire pour moi : une fenêtre contextuelle plus grande peut en effet améliorer la sensibilité au contexte, mais des problèmes avec les performances du modèle de base peuvent rendre un contexte plus large constitue un problème en soi.
Google Gemini 1.5 va-t-il changer la donne ? Les réseaux sociaux regorgent actuellement de critiques élogieuses sur Gemini 1.5 émanant d'utilisateurs à accès anticipé. Cependant, la plupart des avis 5 étoiles proviennent de cas d’utilisation précipités ou simplifiés. Un bon endroit pour vérifier les performances de Gemini 1.5 dans la nature est le rapport technique Gemini 1.5 de Google [PDF]. Le rapport montre que même lors de « tests contrôlés », le modèle n'a pas pu récupérer tous les petits détails des documents dans la taille de sa fenêtre contextuelle.
Une fenêtre contextuelle d'un million de jetons est en effet une prouesse technique impressionnante, mais sans pouvoir récupérer les détails d'un document de manière fiable, alors une fenêtre contextuelle plus grande n'a que peu de valeur pratique et pourrait même devenir une cause de refus précision et hallucinations.
Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.
Copyright© 2022 湘ICP备2022001581号-3