«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > ИИ > За пределами магистратуры: вот почему модели на малом языке — будущее искусственного интеллекта

За пределами магистратуры: вот почему модели на малом языке — будущее искусственного интеллекта

Опубликовано 1 ноября 2024 г.
Просматривать:118

Большие языковые модели (LLM) появились на сцене с выпуском ChatGPT от Open AI. С тех пор несколько компаний также запустили свои программы LLM, но сейчас все больше компаний склоняются к моделям малого языка (SLM).

SLM набирает обороты, но что это такое и чем они отличаются от LLM?

Что такое модель малого языка?

Маленькая языковая модель (SLM) — это тип модели искусственного интеллекта с меньшим количеством параметров (подумайте об этом как о значении модели, полученной во время обучения). Как и их более крупные аналоги, SLM могут генерировать текст и выполнять другие задачи. Однако SLM используют меньше наборов данных для обучения, имеют меньше параметров и требуют меньших вычислительных мощностей для обучения и запуска. у которых нет такого высокопроизводительного оборудования, как мобильные устройства. Например, Nano от Google — это SLM для мобильных устройств, созданный с нуля и работающий на мобильных устройствах. По словам компании, из-за своего небольшого размера Nano может работать локально с подключением к сети или без него.

Помимо Nano, в сфере искусственного интеллекта существует множество других SLM от ведущих и перспективных компаний. Некоторые популярные SLM включают Phi-3 от Microsoft, GPT-4o mini от OpenAI, Claude 3 Haiku от Anthropic, Llama 3 от Meta и Mixtral 8x7B от Mistral AI.Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

Также доступны и другие варианты, которые вы можете принять за LLM, но они УУЗР. Это особенно верно, учитывая, что большинство компаний используют мультимодельный подход, выпуская более одной языковой модели в своем портфолио, предлагая как LLM, так и SLM. Одним из примеров является GPT-4, который имеет различные модели, в том числе GPT-4, GPT-4o (Omni) и GPT-4o mini.

Малые языковые модели и большие языковые модели

Обсуждая SLM, мы не можем игнорировать их крупных аналогов: LLM. Ключевое различие между SLM и LLM заключается в размере модели, который измеряется с точки зрения параметров.

На момент написания этой статьи в отрасли искусственного интеллекта не существует единого мнения относительно максимального количества параметров, которые модель не должна использовать. превышает минимальное количество, чтобы считаться SLM, или минимальное количество, необходимое для того, чтобы считаться LLM. Однако SLM обычно имеют от миллионов до нескольких миллиардов параметров, а LLM — больше, достигая триллионов.

Например, GPT-3, выпущенный в 2020 году, имеет 175 миллиардов параметров (а По слухам, модель GPT-4 имеет около 1,76 триллиона), тогда как SLM-модули Microsoft Phi-3-mini, Phi-3-small и Phi-3-medium 2024 года измеряют 3,8, 7 и 14 миллиардов параметров соответственно.

Другим фактором, отличающим SLM от LLM, является объем данных, используемых для обучения. SLM обучаются на меньших объемах данных, тогда как LLM используют большие наборы данных. Это различие также влияет на способность модели решать сложные задачи.Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

Из-за больших объемов данных, используемых при обучении, LLM лучше подходят для решения различных типов сложных задач, требующих продвинутого рассуждения, тогда как SLM лучше подходят для более простых задачи. В отличие от LLM, SLM используют меньше обучающих данных, но используемые данные должны быть более высокого качества, чтобы реализовать многие возможности LLM в крошечном пакете.

Почему модели на малом языке — это будущее

В большинстве случаев использования SLM имеют больше шансов стать основными моделями, используемыми компаниями и потребителями для выполнения широкого спектра задач. Конечно, у LLM есть свои преимущества и они больше подходят для определенных случаев использования, например для решения сложных задач. Тем не менее, SLM — это будущее для большинства случаев использования по следующим причинам.

1. Более низкие затраты на обучение и обслуживание

SLM требует меньше данных для обучения, чем LLM, что делает их наиболее жизнеспособный вариант для частных лиц и малых и средних компаний с ограниченными данными для обучения, финансами или тем и другим. LLM требуют больших объемов обучающих данных и, как следствие, огромных вычислительных ресурсов как для обучения, так и для работы.Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

Чтобы представить это в перспективе, генеральный директор OpenAI Сэм Альтман подтвердил, что на обучение им потребовалось более 100 миллионов долларов. GPT-4 во время выступления на мероприятии в Массачусетском технологическом институте (согласно Wired). Другой пример — LLM OPT-175B компании Meta. Meta сообщает, что обучение проводилось с использованием 992 графических процессоров NVIDIA A100 80 ГБ, стоимость которых, по данным CNBC, составляет примерно 10 000 долларов за единицу. Таким образом, стоимость составляет примерно 9 миллионов долларов, не включая другие расходы, такие как энергия, заработная плата и многое другое.

При таких цифрах малым и средним компаниям нецелесообразно обучать LLM. Напротив, у SLM более низкий барьер входа с точки зрения ресурсов и меньшие затраты на эксплуатацию, и, таким образом, больше компаний будут использовать их.

2. Повышение производительности

Производительность – еще один аспект область, где SLM превосходят LLM благодаря своим компактным размерам. SLM имеют меньшую задержку и больше подходят для сценариев, где необходимы более быстрые ответы, например, в приложениях реального времени. Например, более быстрый ответ предпочтителен в системах голосового ответа, таких как цифровые помощники.Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

Выполнение на устройстве (подробнее об этом позже) также означает, что вашему запросу не придется совершать поездку на онлайн-серверы и обратно на них. ответьте на ваш запрос, что приведет к более быстрому ответу.

3. Более точный

Когда дело доходит до генеративного ИИ, одно остается неизменным: мусор на входе, мусор на выходе. Текущие LLM прошли обучение с использованием больших наборов необработанных данных из Интернета. Таким образом, они могут быть не точными во всех ситуациях. Это одна из проблем ChatGPT и подобных моделей, и почему не следует доверять всему, что говорит чат-бот с искусственным интеллектом. С другой стороны, SLM обучаются с использованием данных более высокого качества, чем LLM, и, следовательно, имеют более высокую точность. области по сравнению с более крупными и обобщенными моделями.Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

4. Может работать на устройстве

SLM требуют меньше вычислительной мощности, чем LLM, и поэтому идеально подходят для периферийных вычислений. Их можно развернуть на периферийных устройствах, таких как смартфоны и автономные транспортные средства, которые не обладают большой вычислительной мощностью или ресурсами. Модель Google Nano может работать на устройстве, что позволяет ей работать даже при отсутствии активного подключения к Интернету.

Эта возможность представляет собой беспроигрышную ситуацию как для компаний, так и для потребителей. Во-первых, это выигрыш в плане конфиденциальности, поскольку пользовательские данные обрабатываются локально, а не отправляются в облако, что важно, поскольку в наши смартфоны интегрировано все больше искусственного интеллекта, содержащего почти все подробности о нас. Это также выгода для компаний, поскольку им не нужно развертывать и запускать большие серверы для решения задач ИИ.Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

SLM набирает обороты благодаря крупнейшим игрокам отрасли, таким как Open AI, Google, Microsoft, Anthropic и Meta выпускают такие модели. Эти модели больше подходят для более простых задач, для которых большинство из нас использует LLM; следовательно, за ними будущее.

Но LLM никуда не денется. Вместо этого они будут использоваться для продвинутых приложений, которые объединяют информацию из разных областей для создания чего-то нового, например, в медицинских исследованиях.

Заявление о выпуске Эта статья воспроизведена по адресу: https://www.makeuseof.com/why-small-language-models-are-the-future-of-ai/. В случае каких-либо нарушений, пожалуйста, свяжитесь с [email protected], чтобы удалить ее.
Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3