No sorprende que la IA no siempre haga las cosas bien. En ocasiones incluso llega a alucinar. Sin embargo, un estudio reciente realizado por investigadores de Apple ha mostrado fallas aún más significativas dentro de los modelos matemáticos utilizados por la IA para el razonamiento formal.
✕ Remove AdsComo parte del estudio, los científicos de Apple solicitaron un modelo de lenguaje grande de IA. (LLM) una pregunta, varias veces, de formas ligeramente diferentes, y se sorprendieron cuando descubrieron que el LLM ofrecía variaciones inesperadas en las respuestas. Estas variaciones fueron más prominentes cuando se trataba de números.
La investigación, publicada por arxiv.org, concluyó que había una “variabilidad significativa del rendimiento entre diferentes instancias de la misma pregunta, desafiando la confiabilidad de los resultados actuales de GSM8K que se basan en métricas de precisión de un solo punto”. GSM8K es un conjunto de datos que incluye más de 8000 preguntas y respuestas diversas de matemáticas de la escuela primaria.
✕ Eliminar anunciosLos investigadores de Apple identificaron que la variación en este rendimiento podría ser de hasta un 10%. E incluso ligeras variaciones en las indicaciones pueden causar problemas colosales con la confiabilidad de las respuestas del LLM.
En otras palabras, es posible que desees verificar tus respuestas cada vez que uses algo como ChatGPT. Esto se debe a que, si bien a veces puede parecer que la IA está usando la lógica para darle respuestas a sus consultas, no es la lógica lo que se utiliza.
La IA, en cambio, se basa en el reconocimiento de patrones para proporcionar respuestas a las indicaciones. Sin embargo, el estudio de Apple muestra cómo cambiar incluso unas pocas palabras sin importancia puede alterar el reconocimiento de patrones.
Un ejemplo de la variación crítica presentada se produjo a través de un problema relacionado con la recolección de kiwis durante varios días. Los investigadores de Apple llevaron a cabo un experimento de control y luego agregaron información intrascendente sobre el tamaño del kiwi.
✕ Eliminar anunciosMeta's Llama y OpenAI's o1, luego modificaron sus respuestas al problema desde el control a pesar de que los datos sobre el tamaño del kiwi no tenían una influencia tangible en el resultado del problema. GPT-4o de OpenAI también tuvo problemas con su rendimiento al introducir pequeñas variaciones en los datos proporcionados al LLM.
Dado que los LLM se están volviendo más prominentes en nuestra cultura, esta noticia genera una tremenda preocupación sobre si podemos confiar en la IA. para proporcionar respuestas precisas a nuestras consultas. Especialmente para temas como el asesoramiento financiero. También refuerza la necesidad de verificar con precisión la información que recibe cuando utiliza modelos de lenguaje grandes.
Eso significa que querrá hacer un poco de pensamiento crítico y diligencia debida en lugar de confiar ciegamente en la IA. Por otra parte, si eres alguien que usa IA regularmente, probablemente ya lo sabías.
✕ Eliminar anunciosDescargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3