Il n’est pas surprenant que l’IA ne fasse pas toujours les choses correctement. Parfois, il a même des hallucinations. Cependant, une étude récente menée par des chercheurs d'Apple a montré des défauts encore plus importants dans les modèles mathématiques utilisés par l'IA pour le raisonnement formel.
✕ Supprimer les publicitésDans le cadre de l'étude, les scientifiques d'Apple ont interrogé un modèle de langage étendu de l'IA. (LLM) une question, plusieurs fois, de manières légèrement différentes, et ont été stupéfaits lorsqu'ils ont découvert que le LLM offrait des variations inattendues dans les réponses. Ces variations étaient plus importantes lorsque des chiffres étaient impliqués.
La recherche, publiée par arxiv.org, a conclu qu'il y avait « une variabilité significative des performances entre différentes instanciations de la même question, remettant en question la fiabilité des résultats actuels du GSM8K qui reposent sur des mesures de précision en un seul point. GSM8K est un ensemble de données qui comprend plus de 8 000 questions et réponses mathématiques diverses pour les écoles primaires.
✕ Supprimer les publicitésLes chercheurs d'Apple ont identifié que l'écart dans ces performances pourrait atteindre 10 %. Et même de légères variations dans les invites peuvent causer des problèmes colossaux avec la fiabilité des réponses du LLM.
En d'autres termes, vous souhaiterez peut-être vérifier vos réponses chaque fois que vous utilisez quelque chose comme ChatGPT. En effet, même s'il peut parfois sembler que l'IA utilise la logique pour vous donner des réponses à vos questions, ce n'est pas la logique qui est utilisée.
L'IA, quant à elle, s'appuie sur la reconnaissance de formes pour fournir des réponses aux invites. Cependant, l'étude Apple montre comment la modification de quelques mots sans importance peut altérer cette reconnaissance de formes.
Un exemple de l'écart critique présenté est dû à un problème de collecte de kiwis sur plusieurs jours. Les chercheurs d'Apple ont mené une expérience de contrôle, puis ont ajouté des informations sans conséquence sur la taille du kiwi. ont ensuite modifié leurs réponses au problème du contrôle malgré que les données sur la taille du kiwi n'aient aucune influence tangible sur l'issue du problème. Le GPT-4o d'OpenAI a également rencontré des problèmes de performances lors de l'introduction de minuscules variations dans les données fournies au LLM.
✕ Supprimer les publicités
Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.
Copyright© 2022 湘ICP备2022001581号-3