«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > ИИ > GPT-5: 4 новые функции, которые мы хотим увидеть

GPT-5: 4 новые функции, которые мы хотим увидеть

Опубликовано 17 августа 2024 г.
Просматривать:899

По крайней мере, мы на это надеемся. Конкретной даты запуска GPT-5 не существует, и большая часть того, что, как нам кажется, мы знаем, получена в результате объединения другой информации и попыток соединить точки.

Тем не менее, независимо от даты сдачи, есть несколько ключевых функций, которые мы хотим увидеть при запуске GPT-5.

Что такое GPT-5 OpenAI?

GPT-5 — это долгожданный преемник модели искусственного интеллекта OpenAI GPT-4, которая, как многие ожидают, станет самой мощной генеративной моделью на рынке. Хотя официальной даты выпуска GPT-5 в настоящее время нет, есть признаки того, что она может быть выпущена уже летом 2024 года. На данный момент известно очень мало подробностей о модели, но с некоторой долей уверенности можно сказать несколько вещей. уверенность:

OpenAI подала заявку на регистрацию товарного знака в Ведомство по патентам и товарным знакам США. Несколько руководителей OpenAI обсуждали или намекали на возможные возможности модели. Генеральный директор OpenAI Сэм Альтман неоднократно упоминал эту модель во время интервью на YouTube с Лексом Фридманом в марте 2024 года.

Все это указывает на одну захватывающую реальность: GPT-5 уже близко! Тем не менее, на данный момент довольно многое является спекуляциями. Но есть несколько вещей, которые мы надеемся увидеть и вполне уверены в том, что увидим в модели. Вот некоторые из них:

1. Больше мультимодальности

GPT-5: 4 New Features We Want to See

Одним из самых интересных улучшений в семействе моделей ИИ GPT стала мультимодальность. Для ясности: мультимодальность — это способность модели ИИ обрабатывать не только текст, но и другие типы входных данных, такие как изображения, аудио и видео. Мультимодальность станет важным ориентиром для развития семейства моделей GPT в будущем.

Поскольку GPT-4 уже умеет обрабатывать входные и выходные изображения, улучшения, касающиеся обработки аудио и видео, являются следующей вехой в развитии OpenAI, а GPT-5 — хорошее начало. Google уже добился серьезных успехов в такого рода мультимодальности со своей моделью Gemini AI. Для OpenAI было бы нетипично не ответить. Но, конечно, не верьте нам на слово. В своем подкасте Unconfuse Me [расшифровка PDF] Билл Гейтс спросил генерального директора OpenAI Сэма Альтмана, какие вехи он предвидит в серии GPT на ближайшие два года. Его первый ответ? Обработка видео.

Итак, в GPT-5 мы ожидаем, что сможем экспериментировать с видео: загружать видео в виде подсказок, создавать видео на ходу, редактировать видео с помощью текстовых подсказок, извлекать фрагменты из видео и находить определенные сцены. из больших видеофайлов. Мы ожидаем, что сможем делать то же самое с аудиофайлами. Да, это большой вопрос. Но, учитывая скорость развития ИИ, это вполне разумное ожидание.

2. Большее и более эффективное контекстное окно

GPT-5: 4 New Features We Want to See

Несмотря на то, что семейство моделей ИИ GPT является одной из самых сложных моделей ИИ на рынке, оно имеет одно из самых маленьких контекстных окон. Например, Claude 3 от Anthropic может похвастаться контекстным окном из 200 000 токенов, а Gemini от Google может обрабатывать ошеломляющий 1 миллион токенов (128 000 для стандартного использования). Напротив, GPT-4 имеет относительно меньшее контекстное окно — 128 000 токенов, при этом примерно 32 000 токенов или меньше реально доступны для использования в таких интерфейсах, как ChatGPT.

С появлением расширенной мультимодальности улучшение контекстного окна практически неизбежно. Возможно, было бы достаточно увеличения в два или четыре раза, но мы надеемся увидеть что-то вроде десятикратного. Это позволит GPT-5 обрабатывать гораздо больше информации гораздо более эффективно. Однако большее контекстное окно не всегда означает лучшее. Итак, вместо того, чтобы просто увеличивать окно контекста, мы хотели бы видеть повышение эффективности обработки контекста.

Видите ли, модель может иметь контекстное окно в один миллион токенов (емкостью около 700 000 слов), но не может предоставить исчерпывающее резюме, когда ее просят резюмировать книгу из 500 000 слов, потому что она не может адекватно обработать всю информацию. контекста, несмотря на то, что теоретически у него есть такая возможность. То, что вы можете прочитать книгу из 500 тысяч слов, не означает, что вы можете вспомнить все, что в ней содержится, или разумно обработать ее.

3. Агенты GPT

GPT-5: 4 New Features We Want to See

Возможно, одна из самых захватывающих возможностей выпуска GPT-5 — это дебют агентов GPT. Хотя термин «изменяющий правила игры», вероятно, слишком часто используется в сфере искусственного интеллекта, агенты GPT действительно изменят правила игры во всех практических смыслах. Но насколько это изменит правила игры?

В настоящее время модели искусственного интеллекта, такие как GPT-4, могут помочь вам выполнить задачу. Они могут написать электронное письмо, пошутить, решить математическую задачу или подготовить для вас сообщение в блоге. Однако они могут выполнять только эту конкретную задачу и не могут выполнить набор связанных задач, которые необходимы для выполнения вашей работы.

Допустим, вы веб-разработчик. В рамках вашей работы от вас ожидают многого: проектировать, писать код, устранять неполадки и многое другое. В настоящее время вы можете одновременно делегировать моделям ИИ только часть этих задач. Возможно, вы можете попросить модель GPT-4 написать код для домашней страницы, затем попросить ее сделать это для страницы контактов, затем для страницы «О программе» и т. д. Вам придется выполнять эти задачи итеративно. А есть задачи, которые модели просто не могут выполнить.

Этот итеративный процесс подсказки моделям ИИ для конкретных подзадач занимает много времени и неэффективен. В этом сценарии вы — веб-разработчик — являетесь человеческим агентом, ответственным за координацию и подсказку моделям ИИ по одной задаче за раз, пока вы не выполните весь набор связанных задач.

GPT Agents обещает специализированных экспертных ботов, координируемых, как мы надеемся, GPT-5, способных самостоятельно подсказывать и решать все подмножества сложных задач автономно. Акцент на «самоподсказках» и «автономности».

Итак, если GPT-5 поставляется с агентами GPT, вы можете попросить его «создать веб-сайт-портфолио для Максвелла Тимоти», а не просто «написать мне код для домашней страницы». Тогда GPT-5 теоретически сможет самостоятельно запрашивать запросы, вызывая опытных агентов ИИ для выполнения различных подзадач, необходимых для создания веб-сайта. Он может вызвать один GPT для поиска в Интернете информации о Максвелле Тимоти, другой агент для написания кода для разных страниц, другой агент для создания и оптимизации изображений и даже еще один агент ИИ для развертывания сайта, и все это без необходимости повторного вмешательства человека. подсказка.

4. Меньше галлюцинаций

Хотя OpenAI прошла долгий путь в борьбе с галлюцинациями в своих моделях ИИ, настоящей лакмусовой бумажкой для GPT-5 станет его способность решать постоянную проблему галлюцинации, которые сдерживают широкое внедрение искусственного интеллекта в таких важных для безопасности областях, как здравоохранение, авиация и кибербезопасность. Это все области, которые могли бы получить значительную выгоду от активного участия ИИ, но в настоящее время избегают какого-либо значительного внедрения.

Для ясности, галлюцинация в этом контексте относится к ситуациям, когда модель ИИ генерирует и представляет правдоподобно звучащую, но полностью сфабрикованную информацию с высокой степенью достоверности.

Представьте себе сценарий, в котором GPT-4 интегрирован в диагностическую систему для анализа симптомов пациентов и медицинских отчетов. Галлюцинация может привести к тому, что ИИ с уверенностью поставит неверный диагноз или порекомендует потенциально опасный курс лечения, основанный на воображаемых фактах и ​​ложной логике. Последствия такой ошибки в медицинской сфере могут быть катастрофическими.

Аналогичные оговорки применимы и к другим областям, имеющим серьезные последствия, таким как авиация, ядерная энергетика, морские операции и кибербезопасность. Мы не ожидаем, что GPT-5 полностью решит проблему галлюцинаций, но ожидаем, что он значительно снизит вероятность таких инцидентов.

Поскольку мы с нетерпением ожидаем официального выпуска этой долгожданной модели ИИ, одно можно сказать наверняка: GPT-5 потенциально может переопределить границы возможного с искусственным интеллектом, открывая новую эру человеческого развития. -Машинное сотрудничество и инновации.

Заявление о выпуске Эта статья воспроизведена по адресу: https://www.makeuseof.com/gpt-5-features-we-want-to-see/. В случае каких-либо нарушений, пожалуйста, свяжитесь с [email protected], чтобы удалить ее.
Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3