Имея это в виду, мы создали пошаговое руководство о том, как использовать Text-Generation-WebUI для загрузки квантованного Llama 2 LLM локально на ваш компьютер.
Есть много причин, по которым люди предпочитают запускать Llama 2 напрямую. Некоторые делают это из соображений конфиденциальности, некоторые — для настройки, а третьи — для работы в автономном режиме. Если вы исследуете, настраиваете или интегрируете Llama 2 в свои проекты, то доступ к Llama 2 через API может вам не подойти. Смысл локального запуска LLM на вашем ПК состоит в том, чтобы уменьшить зависимость от сторонних инструментов искусственного интеллекта и использовать искусственный интеллект в любое время и в любом месте, не беспокоясь об утечке потенциально конфиденциальных данных компаниям и другим организациям.
С учетом сказанного, давайте начнем с пошагового руководства по локальной установке Llama 2.
Чтобы упростить задачу, мы будем использовать установщик Text-Generation-WebUI (программы, используемой для загрузки Llama 2 с графическим интерфейсом) в один клик. . Однако для работы этого установщика необходимо загрузить Visual Studio 2019 Build Tool и установить необходимые ресурсы.
Скачать:Visual Studio 2019 (бесплатно)
Загрузите версию программного обеспечения для сообщества. Теперь установите Visual Studio 2019 и откройте программное обеспечение. После открытия установите флажок «Разработка настольных компьютеров на C» и нажмите «Установить».Теперь, когда у вас установлена разработка настольных компьютеров на C, пришло время загрузить установщик Text-Generation-WebUI в один клик.
Программа установки Text-Generation-WebUI в один клик представляет собой сценарий, который автоматически создает необходимые папки и настраивает среду Conda и все необходимые требования. для запуска модели ИИ.
Чтобы установить скрипт, загрузите установщик в один клик, нажав «Код» > «Загрузить ZIP».
Загрузка:Установщик Text-Generation-WebUI (бесплатно)
После загрузки извлеките ZIP-файл в нужное вам место, а затем откройте извлеченную папку. В папке прокрутите вниз и найдите подходящую стартовую программу для вашей операционной системы. Запустите программы, дважды щелкнув соответствующий скрипт. Если вы используете Windows, выберите пакетный файл start_windows для MacOS, выберите сценарий оболочки start_macos для Linux, сценарий оболочки start_linux.Ваш антивирус может создать предупреждение; это нормально. Подсказка — это просто ложное срабатывание антивируса при запуске командного файла или сценария. Нажмите «Выполнить в любом случае». Откроется терминал и начнется установка. Вначале установка приостановится и спросит вас, какой графический процессор вы используете. Выберите подходящий тип графического процессора, установленного на вашем компьютере, и нажмите Enter. Для тех, у кого нет выделенной видеокарты, выберите «Нет» (я хочу запускать модели в режиме ЦП). Имейте в виду, что работа в режиме ЦП происходит намного медленнее по сравнению с работой модели с выделенным графическим процессором.
Однако программа представляет собой всего лишь загрузчик модели. Давайте скачаем Llama 2 для запуска загрузчика моделей.
При принятии решения о том, какая версия Llama 2 вам нужна, необходимо учитывать немало факторов. К ним относятся параметры, квантование, оптимизация оборудования, размер и использование. Вся эта информация будет указана в названии модели.
Параметры: количество параметров, используемых для обучения модели. Большие параметры делают модели более функциональными, но за счет производительности. Использование: Может быть стандартным или чатом. Модель чата оптимизирована для использования в качестве чат-бота, например ChatGPT, тогда как стандартной является модель по умолчанию. Оптимизация оборудования: относится к тому, какое оборудование лучше всего работает с моделью. GPTQ означает, что модель оптимизирована для работы на выделенном графическом процессоре, а GGML оптимизирован для работы на центральном процессоре. Квантование: обозначает точность весов и активаций в модели. Для вывода оптимальна точность q4. Размер: Относится к размеру конкретной модели.Обратите внимание, что некоторые модели могут быть устроены по-разному и могут даже отображать разные типы информации. Однако этот тип соглашения об именах довольно распространен в библиотеке модели HuggingFace, поэтому его все же стоит понять.
В этом примере модель можно идентифицировать как модель Llama 2 среднего размера, обученную на 13 миллиардах параметров, оптимизированную для вывода чата с использованием выделенного ЦП.
Для тех, кто работает на выделенном графическом процессоре, выберите модель GPTQ, а для тех, кто использует ЦП, выберите GGML. Если вы хотите общаться с моделью так же, как с ChatGPT, выберите чат, но если вы хотите поэкспериментировать с моделью со всеми ее возможностями, используйте стандартную модель. Что касается параметров, знайте, что использование более крупных моделей обеспечит лучшие результаты за счет производительности. Лично я бы рекомендовал вам начать с модели 7B. Что касается квантования, используйте q4, поскольку он предназначен только для вывода.
Загрузка:GGML (бесплатно)
Загрузка:GPTQ (бесплатно)
Теперь, когда вы знаете, какая версия Llama 2 вам нужна, скачайте нужную модель. .
В моем случае, поскольку я запускаю это на ультрабуке, я буду использовать модель GGML, настроенную для чата, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
После завершения загрузки поместите модель в text-generation-webui-main > models.
Теперь, когда ваша модель загружена и помещена в папку модели, пришло время настроить загрузчик модели.
Теперь приступим к этапу настройки.
Еще раз откройте Text-Generation-WebUI, запустив файл start_(вашей ОС) (см. предыдущие шаги выше). На вкладках, расположенных над графическим интерфейсом, нажмите «Модель». Нажмите кнопку обновления в раскрывающемся меню модели и выберите свою модель. Теперь щелкните раскрывающееся меню загрузчика модели и выберите AutoGPTQ для тех, кто использует модель GTPQ, и ctransformers для тех, кто использует модель GGML. Наконец, нажмите «Загрузить», чтобы загрузить вашу модель.Поздравляем, вы успешно загрузили Llama2 на свой локальный компьютер!
Теперь, когда вы знаете, как запустить Llama 2 непосредственно на своем компьютере с помощью Text-Generation-WebUI, вы также сможете запускать другие LLM, помимо Llama. Просто помните о правилах именования моделей и о том, что на обычные ПК можно загружать только квантованные версии моделей (обычно с точностью q4). На HuggingFace доступно множество квантованных LLM. Если вы хотите изучить другие модели, найдите TheBloke в библиотеке моделей HuggingFace, и вы найдете множество доступных моделей.
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3