Неудивительно, что ИИ не всегда все делает правильно. Иногда у него даже возникают галлюцинации. Однако недавнее исследование, проведенное исследователями Apple, выявило еще более серьезные недостатки в математических моделях, используемых ИИ для формальных рассуждений.
✕ Удалить рекламуВ рамках исследования ученые Apple обратились к модели большого языка ИИ. (LLM) задавали вопрос несколько раз, слегка по-разному, и были поражены, когда обнаружили, что LLM предлагает неожиданные варианты ответов. Эти различия были наиболее заметными, когда использовались числа.
Исследование, опубликованное arxiv.org, пришло к выводу, что существует «значительная вариативность производительности между различные варианты одного и того же вопроса, что ставит под сомнение надежность текущих результатов GSM8K, основанных на показателях точности по одной точке». GSM8K — это набор данных, который включает более 8000 разнообразных вопросов и ответов по математике для начальной школы.
✕ Удалить рекламуИсследователи Apple определили, что отклонение в этой производительности может достигать 10%. И даже небольшие различия в подсказках могут вызвать колоссальные проблемы с надежностью ответов LLM.
Другими словами, вы можете захотеть проверять свои ответы каждый раз, когда используете что-то вроде ChatGPT. Это потому, что, хотя иногда может показаться, что ИИ использует логику, чтобы дать вам ответы на ваши запросы, на самом деле логика — это не то, что используется.
Вместо этого ИИ полагается на распознавание образов для предоставления ответов на подсказки. Однако исследование Apple показывает, как изменение даже нескольких несущественных слов может изменить распознавание образов.
Один из примеров представленного критического отклонения возник из-за проблемы со сбором киви в течение нескольких дней. Исследователи Apple провели контрольный эксперимент, а затем добавили некоторую несущественную информацию о размере киви.
✕ Удалить рекламуLlama от Meta и o1 от OpenAI, затем изменили свои ответы на задачу по сравнению с контрольной, несмотря на то, что данные о размере киви не оказали ощутимого влияния на результат задачи. У OpenAI GPT-4o также были проблемы с производительностью при внесении небольших изменений в данные, передаваемые в LLM.
Поскольку LLM становятся все более заметными в нашей культуре, эта новость вызывает огромную обеспокоенность по поводу того, можем ли мы доверять ИИ. чтобы дать точные ответы на наши запросы. Особенно по таким вопросам, как финансовые консультации. Это также усиливает необходимость точной проверки информации, которую вы получаете при использовании больших языковых моделей.
Это означает, что вам нужно проявить критическое мышление и должную осмотрительность, а не слепо полагаться на ИИ. Опять же, если вы регулярно используете ИИ, вы, вероятно, уже это знали.
✕ Удалить рекламуОтказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3