Con eso en mente, hemos creado una guía paso a paso sobre cómo usar Text-Generation-WebUI para cargar un Llama 2 LLM cuantificado localmente en su computadora.
Hay muchas razones por las que las personas eligen ejecutar Llama 2 directamente. Algunos lo hacen por cuestiones de privacidad, otros por personalización y otros por capacidades fuera de línea. Si está investigando, perfeccionando o integrando Llama 2 para sus proyectos, es posible que acceder a Llama 2 a través de API no sea para usted. El objetivo de ejecutar un LLM localmente en su PC es reducir la dependencia de herramientas de inteligencia artificial de terceros y utilizar la inteligencia artificial en cualquier momento y lugar, sin preocuparse por la filtración de datos potencialmente confidenciales a empresas y otras organizaciones.
Dicho esto, comencemos con la guía paso a paso para instalar Llama 2 localmente.
Para simplificar las cosas, usaremos un instalador de un solo clic para Text-Generation-WebUI (el programa utilizado para cargar Llama 2 con GUI) . Sin embargo, para que este instalador funcione, debe descargar la herramienta de compilación de Visual Studio 2019 e instalar los recursos necesarios.
Descargar: Visual Studio 2019 (gratis)
Continúe y descargue la edición comunitaria del software. Ahora instale Visual Studio 2019, luego abra el software. Una vez abierto, marque la casilla Desarrollo de escritorio con C y presione instalar.Ahora que tiene instalado el desarrollo de escritorio con C, es hora de descargar el instalador de un solo clic de Text-Generation-WebUI.
El instalador de un solo clic de Text-Generation-WebUI es un script que crea automáticamente las carpetas necesarias y configura el entorno de Conda y todos los requisitos necesarios para ejecutar un modelo de IA.
Para instalar el script, descargue el instalador de un solo clic haciendo clic en Código > Descargar ZIP.
Descargar: Instalador Text-Generation-WebUI (gratis)
Una vez descargado, extraiga el archivo ZIP en su ubicación preferida y luego abra la carpeta extraída. Dentro de la carpeta, desplácese hacia abajo y busque el programa de inicio apropiado para su sistema operativo. Ejecute los programas haciendo doble clic en el script apropiado. Si está en Windows, seleccione el archivo por lotes start_windows para MacOS, seleccione el script de shell start_macos para Linux, el script de shell start_linux.Su antivirus puede crear una alerta; esto está bien. El mensaje es solo un falso positivo del antivirus al ejecutar un archivo por lotes o un script. Haga clic en Ejecutar de todos modos. Se abrirá una terminal e iniciará la configuración. Al principio, la configuración se detendrá y le preguntará qué GPU está utilizando. Seleccione el tipo apropiado de GPU instalado en su computadora y presione Enter. Para aquellos que no tienen una tarjeta gráfica dedicada, seleccione Ninguno (quiero ejecutar modelos en modo CPU). Tenga en cuenta que ejecutar en modo CPU es mucho más lento en comparación con ejecutar el modelo con una GPU dedicada. Una vez que se completa la configuración, ahora puede iniciar Text-Generation-WebUI localmente. Puede hacerlo abriendo su navegador web preferido e ingresando la dirección IP proporcionada en la URL. La WebUI ya está lista para su uso.
Sin embargo, el programa es solo un cargador de modelos. Descarguemos Llama 2 para que se inicie el cargador de modelos.
Hay bastantes cosas a considerar al decidir qué iteración de Llama 2 necesita. Estos incluyen parámetros, cuantificación, optimización de hardware, tamaño y uso. Toda esta información se encontrará indicada en el nombre del modelo.
Parámetros: el número de parámetros utilizados para entrenar el modelo. Los parámetros más grandes hacen que los modelos sean más capaces, pero a costa del rendimiento. Uso: Puede ser estándar o chatear. Un modelo de chat está optimizado para usarse como un chatbot como ChatGPT, mientras que el estándar es el modelo predeterminado. Optimización de hardware: se refiere a qué hardware ejecuta mejor el modelo. GPTQ significa que el modelo está optimizado para ejecutarse en una GPU dedicada, mientras que GGML está optimizado para ejecutarse en una CPU. Cuantización: Denota la precisión de pesos y activaciones en un modelo. Para inferir, una precisión de q4 es óptima. Tamaño: Se refiere al tamaño del modelo específico.Tenga en cuenta que algunos modelos pueden estar organizados de manera diferente y es posible que ni siquiera muestren el mismo tipo de información. Sin embargo, este tipo de convención de nomenclatura es bastante común en la biblioteca de modelos HuggingFace, por lo que aún así vale la pena comprenderla.
En este ejemplo, el modelo se puede identificar como un modelo Llama 2 de tamaño mediano entrenado en 13 mil millones de parámetros optimizados para la inferencia de chat utilizando una CPU dedicada.
Para aquellos que ejecutan una GPU dedicada, elija un modelo GPTQ, mientras que para aquellos que usan una CPU, elija GGML. Si desea chatear con el modelo como lo haría con ChatGPT, elija chatear, pero si desea experimentar con el modelo con todas sus capacidades, use el modelo estándar. En cuanto a los parámetros, sepa que utilizar modelos más grandes proporcionará mejores resultados a expensas del rendimiento. Personalmente, recomendaría que comiences con un modelo 7B. En cuanto a la cuantización, utilice q4, ya que es sólo para inferir.
Descargar:GGML (Gratis)
Descargar:GPTQ (Gratis)
Ahora que sabes qué iteración de Llama 2 necesitas, continúa y descarga el modelo que deseas .
En mi caso, dado que estoy ejecutando esto en una ultrabook, usaré un modelo GGML ajustado para chat, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
Una vez finalizada la descarga, coloque el modelo en text-spawn-webui-main > models.
Ahora que ha descargado su modelo y colocado en la carpeta del modelo, es hora de configurar el cargador de modelos.
Ahora, comencemos la fase de configuración.
Una vez más, abra Text-Generation-WebUI ejecutando el archivo start_(su sistema operativo) (consulte los pasos anteriores anteriores). En las pestañas ubicadas encima de la GUI, haga clic en Modelo. Haga clic en el botón Actualizar en el menú desplegable del modelo y seleccione su modelo. Ahora haga clic en el menú desplegable del cargador de modelos y seleccione AutoGPTQ para aquellos que usan un modelo GTPQ y ctransformers para aquellos que usan un modelo GGML. Finalmente, haga clic en Cargar para cargar su modelo. Para usar el modelo, abra la pestaña Chat y comience a probar el modelo.¡Felicitaciones, ha cargado Llama2 exitosamente en su computadora local!
Ahora que sabe cómo ejecutar Llama 2 directamente en su computadora usando Text-Generation-WebUI, también debería poder ejecutar otros LLM además de Llama. Sólo recuerde las convenciones de nomenclatura de los modelos y que sólo se pueden cargar versiones cuantificadas de los modelos (normalmente con precisión q4) en las PC normales. Muchos LLM cuantificados están disponibles en HuggingFace. Si desea explorar otros modelos, busque TheBloke en la biblioteca de modelos de HuggingFace y encontrará muchos modelos disponibles.
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3