Новое исследование Apple показывает, что рассуждения ИИ имеют серьезные недостатки

титульная страница > ИИ > Новое исследование Apple показывает, что рассуждения ИИ имеют серьезные недостатки

Новое исследование Apple показывает, что рассуждения ИИ имеют серьезные недостатки

Опубликовано 4 ноября 2024 г.

Просматривать:238

Неудивительно, что ИИ не всегда все делает правильно. Иногда у него даже возникают галлюцинации. Однако недавнее исследование, проведенное исследователями Apple, выявило еще более серьезные недостатки в математических моделях, используемых ИИ для формальных рассуждений.

✕ Удалить рекламу

В рамках исследования ученые Apple обратились к модели большого языка ИИ. (LLM) задавали вопрос несколько раз, слегка по-разному, и были поражены, когда обнаружили, что LLM предлагает неожиданные варианты ответов. Эти различия были наиболее заметными, когда использовались числа.

Исследование Apple указывает на большие проблемы с надежностью ИИ

A New Apple Study Shows AI Reasoning Has Critical Flaws

Исследование, опубликованное arxiv.org, пришло к выводу, что существует «значительная вариативность производительности между различные варианты одного и того же вопроса, что ставит под сомнение надежность текущих результатов GSM8K, основанных на показателях точности по одной точке». GSM8K — это набор данных, который включает более 8000 разнообразных вопросов и ответов по математике для начальной школы.

✕ Удалить рекламу

Исследователи Apple определили, что отклонение в этой производительности может достигать 10%. И даже небольшие различия в подсказках могут вызвать колоссальные проблемы с надежностью ответов LLM.

Другими словами, вы можете захотеть проверять свои ответы каждый раз, когда используете что-то вроде ChatGPT. Это потому, что, хотя иногда может показаться, что ИИ использует логику, чтобы дать вам ответы на ваши запросы, на самом деле логика — это не то, что используется.

Вместо этого ИИ полагается на распознавание образов для предоставления ответов на подсказки. Однако исследование Apple показывает, как изменение даже нескольких несущественных слов может изменить распознавание образов.

Один из примеров представленного критического отклонения возник из-за проблемы со сбором киви в течение нескольких дней. Исследователи Apple провели контрольный эксперимент, а затем добавили некоторую несущественную информацию о размере киви.

✕ Удалить рекламу

Модели Meta и OpenAI показали проблемы

Llama от Meta и o1 от OpenAI, затем изменили свои ответы на задачу по сравнению с контрольной, несмотря на то, что данные о размере киви не оказали ощутимого влияния на результат задачи. У OpenAI GPT-4o также были проблемы с производительностью при внесении небольших изменений в данные, передаваемые в LLM.

Поскольку LLM становятся все более заметными в нашей культуре, эта новость вызывает огромную обеспокоенность по поводу того, можем ли мы доверять ИИ. чтобы дать точные ответы на наши запросы. Особенно по таким вопросам, как финансовые консультации. Это также усиливает необходимость точной проверки информации, которую вы получаете при использовании больших языковых моделей.

Это означает, что вам нужно проявить критическое мышление и должную осмотрительность, а не слепо полагаться на ИИ. Опять же, если вы регулярно используете ИИ, вы, вероятно, уже это знали.

✕ Удалить рекламу

Заявление о выпуске Эта статья воспроизведена по адресу: https://www.makeuseof.com/apple-study-reveals-ai-reasoning-critical-flaws/. Если обнаружено какое-либо нарушение прав, свяжитесь с [email protected], чтобы удалить ее.

Последний учебник Более>

Обнаружение пола с OpenCV и Roboflow в Python - Analytics Vidhya
Введение обнаружение пола из изображений на лице является одним из многих захватывающих приложений компьютерного зрения. В этом проекте мы объединяем...

ИИ Опубликовано в 2025-04-29
Машинное мышление в первую очередь: рост стратегического ИИ
STRATEGIC AI Prologue 11. May 1997, New York City. It was a beautiful spring day in New York City. The skies were clear, and temperatures were climbin...

ИИ Опубликовано в 2025-04-29
8 Основные бесплатные и оплачиваемые рекомендации API для LLM
использует силу LLMS: Руководство по API для больших языковых моделей в сегодняшнем динамичном бизнес -ландшафте API (интерфейсы прикладного програ...

ИИ Опубликовано в 2025-04-21
Руководство пользователя: Falcon 3-7B Модель инструктирования
Tii's Falcon 3: Революционный прыжок в AI с открытым исходным кодом амбициозное стремление TII за переосмысление ИИ достигает новых высот с пом...

ИИ Опубликовано в 2025-04-20
DeepSeek-V3 против GPT-4O и Llama 3.3 70b: самая сильная модель ИИ раскрыта
The evolution of AI language models has set new standards, especially in the coding and programming landscape. Leading the c...

ИИ Опубликовано в 2025-04-18
5 лучших инструментов интеллектуального бюджета AI
разблокировка финансовой свободы с помощью AI: главные приложения для составления бюджета в Индии ] вы устали постоянно задаться вопросом, куда уход...

ИИ Опубликовано в 2025-04-17
Подробное объяснение функции Excel SumProduct - Школа анализа данных
Function Excel's SumProduct: A Powerhouse анализа данных ] разблокируйте мощность функции SumProduct Excel для оптимизированного анализа данных....

ИИ Опубликовано в 2025-04-16
Углубленные исследования полностью открыты, CATGPT Plus пользовательские преимущества
Глубокое исследование Openai: изменение игры для исследования ИИ OpenAI развел глубокие исследования для всех подписчиков CHATGPT Plus, обещая знач...

ИИ Опубликовано в 2025-04-16
Amazon Nova Today Real Experience and Review - Analytics Vidhya
Amazon раскрывает Nova: передовые модели фундамента для улучшенного искусственного интеллекта и создания контента ] недавнее событие Amazon Re: Inve...

ИИ Опубликовано в 2025-04-16
5 способов использования функции задачи времени Chatgpt
новые запланированные задачи Chatgpt: автоматизируйте ваш день с AI Chatgpt недавно представила функцию, изменяющую игру: Запланированные задачи. ...

ИИ Опубликовано в 2025-04-16
Какой из трех чат -ботов ИИ отвечает на то же самое, что является лучшим?
с такими параметрами, как Claude, Chatgpt и Gemini, выбор чатбота может чувствовать себя подавляющим. Чтобы помочь вырезать шум, я проверяю все тр...

ИИ Опубликовано в 2025-04-15
Chatgpt достаточно, не требуется специальная машина для AI -чата
в мире с новыми чат -ботами ИИ, запущенными ежедневно, может быть ошеломляющим решать, какой из них является правильным «один». Но, по моему опыту, C...

ИИ Опубликовано в 2025-04-14
Индийский момент ИИ: конкуренция с Китаем и Соединенными Штатами в генеративном ИИ
Амбиции ИИ Индии: обновление 2025 года ] с Китаем и США, инвестирующими в генеративный ИИ, Индия ускоряет свои собственные инициативы Genai. Срочна...

ИИ Опубликовано в 2025-04-13
Автоматизация импорта CSV в PostgreSQL с использованием воздушного потока и Docker
Этот учебник демонстрирует создание надежного конвейера данных с использованием воздушного потока Apache, Docker и PostgreSQL для автоматизации перед...

ИИ Опубликовано в 2025-04-12
Алгоритмы разведки роя: три реализации Python
Imagine watching a flock of birds in flight. There's no leader, no one giving directions, yet they swoop and glide together in perfect harmony. It may...

ИИ Опубликовано в 2025-03-24