Большие языковые модели (LLM) появились на сцене с выпуском ChatGPT от Open AI. С тех пор несколько компаний также запустили свои программы LLM, но сейчас все больше компаний склоняются к моделям малого языка (SLM).
SLM набирает обороты, но что это такое и чем они отличаются от LLM?
Маленькая языковая модель (SLM) — это тип модели искусственного интеллекта с меньшим количеством параметров (подумайте об этом как о значении модели, полученной во время обучения). Как и их более крупные аналоги, SLM могут генерировать текст и выполнять другие задачи. Однако SLM используют меньше наборов данных для обучения, имеют меньше параметров и требуют меньших вычислительных мощностей для обучения и запуска. у которых нет такого высокопроизводительного оборудования, как мобильные устройства. Например, Nano от Google — это SLM для мобильных устройств, созданный с нуля и работающий на мобильных устройствах. По словам компании, из-за своего небольшого размера Nano может работать локально с подключением к сети или без него.
Помимо Nano, в сфере искусственного интеллекта существует множество других SLM от ведущих и перспективных компаний. Некоторые популярные SLM включают Phi-3 от Microsoft, GPT-4o mini от OpenAI, Claude 3 Haiku от Anthropic, Llama 3 от Meta и Mixtral 8x7B от Mistral AI.
Также доступны и другие варианты, которые вы можете принять за LLM, но они УУЗР. Это особенно верно, учитывая, что большинство компаний используют мультимодельный подход, выпуская более одной языковой модели в своем портфолио, предлагая как LLM, так и SLM. Одним из примеров является GPT-4, который имеет различные модели, в том числе GPT-4, GPT-4o (Omni) и GPT-4o mini.
Малые языковые модели и большие языковые модели
На момент написания этой статьи в отрасли искусственного интеллекта не существует единого мнения относительно максимального количества параметров, которые модель не должна использовать. превышает минимальное количество, чтобы считаться SLM, или минимальное количество, необходимое для того, чтобы считаться LLM. Однако SLM обычно имеют от миллионов до нескольких миллиардов параметров, а LLM — больше, достигая триллионов.
Например, GPT-3, выпущенный в 2020 году, имеет 175 миллиардов параметров (а По слухам, модель GPT-4 имеет около 1,76 триллиона), тогда как SLM-модули Microsoft Phi-3-mini, Phi-3-small и Phi-3-medium 2024 года измеряют 3,8, 7 и 14 миллиардов параметров соответственно.
Другим фактором, отличающим SLM от LLM, является объем данных, используемых для обучения. SLM обучаются на меньших объемах данных, тогда как LLM используют большие наборы данных. Это различие также влияет на способность модели решать сложные задачи.
Из-за больших объемов данных, используемых при обучении, LLM лучше подходят для решения различных типов сложных задач, требующих продвинутого рассуждения, тогда как SLM лучше подходят для более простых задачи. В отличие от LLM, SLM используют меньше обучающих данных, но используемые данные должны быть более высокого качества, чтобы реализовать многие возможности LLM в крошечном пакете.
Почему модели на малом языке — это будущее
1. Более низкие затраты на обучение и обслуживание
Чтобы представить это в перспективе, генеральный директор OpenAI Сэм Альтман подтвердил, что на обучение им потребовалось более 100 миллионов долларов. GPT-4 во время выступления на мероприятии в Массачусетском технологическом институте (согласно Wired). Другой пример — LLM OPT-175B компании Meta. Meta сообщает, что обучение проводилось с использованием 992 графических процессоров NVIDIA A100 80 ГБ, стоимость которых, по данным CNBC, составляет примерно 10 000 долларов за единицу. Таким образом, стоимость составляет примерно 9 миллионов долларов, не включая другие расходы, такие как энергия, заработная плата и многое другое.
При таких цифрах малым и средним компаниям нецелесообразно обучать LLM. Напротив, у SLM более низкий барьер входа с точки зрения ресурсов и меньшие затраты на эксплуатацию, и, таким образом, больше компаний будут использовать их.
2. Повышение производительности
Выполнение на устройстве (подробнее об этом позже) также означает, что вашему запросу не придется совершать поездку на онлайн-серверы и обратно на них. ответьте на ваш запрос, что приведет к более быстрому ответу.
3. Более точный
4. Может работать на устройстве
SLM требуют меньше вычислительной мощности, чем LLM, и поэтому идеально подходят для периферийных вычислений. Их можно развернуть на периферийных устройствах, таких как смартфоны и автономные транспортные средства, которые не обладают большой вычислительной мощностью или ресурсами. Модель Google Nano может работать на устройстве, что позволяет ей работать даже при отсутствии активного подключения к Интернету.Эта возможность представляет собой беспроигрышную ситуацию как для компаний, так и для потребителей. Во-первых, это выигрыш в плане конфиденциальности, поскольку пользовательские данные обрабатываются локально, а не отправляются в облако, что важно, поскольку в наши смартфоны интегрировано все больше искусственного интеллекта, содержащего почти все подробности о нас. Это также выгода для компаний, поскольку им не нужно развертывать и запускать большие серверы для решения задач ИИ.
SLM набирает обороты благодаря крупнейшим игрокам отрасли, таким как Open AI, Google, Microsoft, Anthropic и Meta выпускают такие модели. Эти модели больше подходят для более простых задач, для которых большинство из нас использует LLM; следовательно, за ними будущее.
Но LLM никуда не денется. Вместо этого они будут использоваться для продвинутых приложений, которые объединяют информацию из разных областей для создания чего-то нового, например, в медицинских исследованиях.
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3