Probé Granito.

Página delantera > Programación > Probé Granito.

Probé Granito.

Publicado el 2024-11-08

Navegar:657

I tried out Granite .

Granito 3.0

Granite 3.0 es una familia liviana y de código abierto de modelos de lenguaje generativo diseñados para una variedad de tareas de nivel empresarial. Admite de forma nativa funcionalidad, codificación, razonamiento y uso de herramientas en varios idiomas, lo que lo hace adecuado para entornos empresariales.

Probé la ejecución de este modelo para ver qué tareas puede realizar.

Configuración del entorno

Configuré el entorno Granite 3.0 en Google Colab e instalé las bibliotecas necesarias usando los siguientes comandos:

!pip install torch torchvision torchaudio
!pip install accelerate
!pip install -U transformers

Ejecución

Probé el rendimiento de los modelos 2B y 8B de Granite 3.0.

Modelo 2B

Ejecuté el modelo 2B. Aquí está el ejemplo de código para el modelo 2B:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "auto"
model_path = "ibm-granite/granite-3.0-2b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()

chat = [
    { "role": "user", "content": "Please list one IBM Research laboratory located in the United States. You should only output its name and location." },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
input_tokens = tokenizer(chat, return_tensors="pt").to("cuda")
output = model.generate(**input_tokens, max_new_tokens=100)
output = tokenizer.batch_decode(output)
print(output[0])

Producción

userPlease list one IBM Research laboratory located in the United States. You should only output its name and location.
assistant1. IBM Research - Austin, Texas

Modelo 8B

El modelo 8B se puede utilizar reemplazando 2b por 8b. Aquí hay un ejemplo de código sin campos de entrada de rol ni de usuario para el modelo 8B:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "auto"
model_path = "ibm-granite/granite-3.0-8b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()

chat = [
    { "content": "Please list one IBM Research laboratory located in the United States. You should only output its name and location." },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

input_tokens = tokenizer(chat, add_special_tokens=False, return_tensors="pt").to("cuda")
output = model.generate(**input_tokens, max_new_tokens=100)
generated_text = tokenizer.decode(output[0][input_tokens["input_ids"].shape[1]:], skip_special_tokens=True)
print(generated_text)

Producción

1. IBM Almaden Research Center - San Jose, California

Llamada de función

Exploré la función Llamada a función y la probé con una función ficticia. Aquí, get_current_weather está definido para devolver datos meteorológicos simulados.

Función ficticia

import json

def get_current_weather(location: str) -> dict:
    """
    Retrieves current weather information for the specified location (default: San Francisco).
    Args:
        location (str): Name of the city to retrieve weather data for.
    Returns:
        dict: Dictionary containing weather information (temperature, description, humidity).
    """
    print(f"Getting current weather for {location}")

    try:
        weather_description = "sample"
        temperature = "20.0"
        humidity = "80.0"

        return {
            "description": weather_description,
            "temperature": temperature,
            "humidity": humidity
        }
    except Exception as e:
        print(f"Error fetching weather data: {e}")
        return {"weather": "NA"}

Creación inmediata

Creé un mensaje para llamar a la función:

functions = [
    {
        "name": "get_current_weather",
        "description": "Get the current weather",
        "parameters": {
            "type": "object",
            "properties": {
                "location": {
                    "type": "string",
                    "description": "The city and country code, e.g. San Francisco, US",
                }
            },
            "required": ["location"],
        },
    },
]
query = "What's the weather like in Boston?"
payload = {
    "functions_str": [json.dumps(x) for x in functions]
}
chat = [
    {"role":"system","content": f"You are a helpful assistant with access to the following function calls. Your task is to produce a sequence of function calls necessary to generate response to the user utterance. Use the following function calls as required.{payload}"},
    {"role": "user", "content": query }
]

Generación de respuesta

Usando el siguiente código, generé una respuesta:

instruction_1 = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
input_tokens = tokenizer(instruction_1, return_tensors="pt").to("cuda")
output = model.generate(**input_tokens, max_new_tokens=1024)
generated_text = tokenizer.decode(output[0][input_tokens["input_ids"].shape[1]:], skip_special_tokens=True)
print(generated_text)

Producción

{'name': 'get_current_weather', 'arguments': {'location': 'Boston'}}

Esto confirmó la capacidad del modelo para generar la llamada de función correcta según la ciudad especificada.

Especificación de formato para flujo de interacción mejorado

Granite 3.0 permite la especificación de formato para facilitar las respuestas en formatos estructurados. Esta sección explica el uso de [DECLARACIÓN] para respuestas y [PENSAR] para pensamientos internos.

Por otro lado, dado que las llamadas a funciones se generan como texto sin formato, puede ser necesario implementar un mecanismo separado para distinguir entre llamadas a funciones y respuestas de texto normales.

Especificación del formato de salida

Aquí hay un ejemplo de indicación para guiar la salida de la IA:

prompt = """You are a conversational AI assistant that deepens interactions by alternating between responses and inner thoughts.

* Record spoken responses after the [UTTERANCE] tag and inner thoughts after the [THINK] tag.
* Use [UTTERANCE] as a start marker to begin outputting an utterance.
* After [THINK], describe your internal reasoning or strategy for the next response. This may include insights on the user's reaction, adjustments to improve interaction, or further goals to deepen the conversation.
* Important: **Use [UTTERANCE] and [THINK] as a start signal without needing a closing tag.**


Follow these instructions, alternating between [UTTERANCE] and [THINK] formats for responses.

example1:
  [UTTERANCE]Hello! How can I assist you today?[THINK]I’ll start with a neutral tone to understand their needs. Preparing to offer specific suggestions based on their response.[UTTERANCE]Thank you! In that case, I have a few methods I can suggest![THINK]Since I now know what they’re looking for, I'll move on to specific suggestions, maintaining a friendly and approachable tone.
...
example>

Please respond to the following user_input.

Hello! What can you do?

"""

Ejemplo de código de ejecución

el código para generar una respuesta:

chat = [
    { "role": "user", "content": prompt },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

input_tokens = tokenizer(chat, return_tensors="pt").to("cuda")
output = model.generate(**input_tokens, max_new_tokens=1024)
generated_text = tokenizer.decode(output[0][input_tokens["input_ids"].shape[1]:], skip_special_tokens=True)
print(generated_text)

Salida de ejemplo

El resultado es el siguiente:

[UTTERANCE]Hello! I'm here to provide information, answer questions, and assist with various tasks. I can help with a wide range of topics, from general knowledge to specific queries. How can I assist you today?
[THINK]I've introduced my capabilities and offered assistance, setting the stage for the user to share their needs or ask questions.

Las etiquetas [UTTERANCE] y [THINK] se utilizaron correctamente, lo que permitió dar formato a la respuesta de manera eficaz.

Dependiendo del mensaje, a veces pueden aparecer etiquetas de cierre (como [/UTTERANCE] o [/THINK]) en la salida, pero en general, el formato de salida generalmente se puede especificar correctamente.

Ejemplo de código de transmisión

Veamos también cómo generar respuestas en streaming.

El siguiente código utiliza las bibliotecas asyncio y threading para transmitir de forma asincrónica respuestas desde Granite 3.0.

import asyncio
from threading import Thread
from typing import AsyncIterator
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    TextIteratorStreamer,
)

device = "auto"
model_path = "ibm-granite/granite-3.0-8b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()

async def generate(chat) -> AsyncIterator[str]:
    # Apply chat template and tokenize input
    chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
    input_tokens = tokenizer(chat, add_special_tokens=False, return_tensors="pt").to("cuda")

    # Set up the streamer
    streamer = TextIteratorStreamer(
        tokenizer,
        skip_prompt=True,
        skip_special_tokens=True,
    )
    generation_kwargs = dict(
        **input_tokens,
        streamer=streamer,
        max_new_tokens=1024,
    )
    # Generate response in a separate thread
    thread = Thread(target=model.generate, kwargs=generation_kwargs)
    thread.start()

    for output in streamer:
        if not output:
            continue
        await asyncio.sleep(0)
        yield output

# Execute asynchronous generation in the main function
async def main():
    chat = [
        { "role": "user", "content": "Please list one IBM Research laboratory located in the United States. You should only output its name and location." },
    ]
    generator = generate(chat)
    async for output in generator:  # Use async for to retrieve responses sequentially
        print(output, end="|")

await main()

Salida de ejemplo

La ejecución del código anterior generará respuestas asincrónicas en el siguiente formato:

1. |IBM |Almaden |Research |Center |- |San |Jose, |California|

Este ejemplo demuestra una transmisión exitosa. Cada token se genera de forma asincrónica y se muestra secuencialmente, lo que permite a los usuarios ver el proceso de generación en tiempo real.

Resumen

Granite 3.0 proporciona respuestas razonablemente sólidas incluso con el modelo 8B. Las funciones de llamada de función y especificación de formato también funcionan bastante bien, lo que indica su potencial para una amplia gama de aplicaciones.

Declaración de liberación Este artículo se reproduce en: https://dev.to/m_sea_bass/i-tried-out-granite-30-53lm?1 Si hay alguna infracción, comuníquese con [email protected] para eliminarla.

Último tutorial Más>

¿Cómo crear una animación CSS suave de izquierda-derecha para un DIV dentro de su contenedor?
animación CSS genérica para el movimiento de derecha izquierda En este artículo, exploraremos la creación de una animación genérica de CSS par...

Programación Publicado el 2025-04-07
$¿Cómo resolver el error \ "Uso no válido de la función de grupo \" en MySQL al encontrar el recuento máximo?$
¿Cómo resolver el error \ "Uso no válido de la función de grupo \" en MySQL al encontrar el recuento máximo?
cómo recuperar el recuento máximo usando mysql en mysql, puede que pueda un problema al intentar encontrar el recuento máximo de valores agrup...

Programación Publicado el 2025-04-07
¿Java permite múltiples tipos de devolución: una mirada más cercana a los métodos genéricos?
múltiples tipos de retorno en java: una concepción errónea indicada en el reino de la programación de java, una firma de método de método pued...

Programación Publicado el 2025-04-07
¿Cómo puedo manejar múltiples cargas de archivos con FormData ()?
Manejo de múltiples cargas de archivo con formdata () Cuando se trabaja con entradas de archivos, a menudo es necesario manejar múltiples carg...

Programación Publicado el 2025-04-07
¿Cómo puedo manejar los nombres de archivo UTF-8 en las funciones del sistema de archivos de PHP?
manejando los nombres de archivo UTF-8 en las funciones del sistema de archivos de PHP al crear carpetas que contienen caracteres UTF-8 utiliz...

Programación Publicado el 2025-04-07
¿Cuáles fueron las restricciones al usar Current_Timestamp con columnas de marca de tiempo en MySQL antes de la versión 5.6.5?
en las columnas de la marca de tiempo con cursion_timestamp en predeterminado o en las cláusulas de actualización en las versiones mySql antes de ...

Programación Publicado el 2025-04-07
¿Cómo recuperar eficientemente la última fila para cada identificador único en PostgreSQL?
postgresql: extrayendo la última fila para cada identificador único en postgresql, puede encontrar situaciones en las que necesita extraer la ...

Programación Publicado el 2025-04-07
¿Cómo manejar la entrada del usuario en el modo exclusivo de pantalla completa de Java?
manejo de la entrada del usuario en el modo exclusivo de la pantalla completa en java introducción cuando ejecuta una aplicación Java en mod...

Programación Publicado el 2025-04-07
¿Cómo puedo unir tablas de bases de datos con diferentes números de columnas?
tablas combinadas con diferentes columnas ]] puede encontrar desafíos al intentar fusionar las tablas de la base de datos con diferentes column...

Programación Publicado el 2025-04-07
¿Cómo mostrar correctamente la fecha y hora actuales en el formato "DD/MM/YYYY HH: MM: SS.SS" en Java?
cómo mostrar la fecha y la hora actuales en "dd/mm/aa radica en el uso de diferentes instancias de SimpleFormat con diferentes patrones de f...

Programación Publicado el 2025-04-07
$¿Cómo corregir \ "mysql_config no encontrado \" error al instalar mysql-python en Ubuntu/Linux?$
¿Cómo corregir \ "mysql_config no encontrado \" error al instalar mysql-python en Ubuntu/Linux?
mysql-python Error de instalación: "mysql_config no encontrado" intentando instalar mysql-python en ubuntu/linux box puede encontrar...

Programación Publicado el 2025-04-07
¿Cómo usar correctamente las consultas como los parámetros PDO?
usando consultas similares en pdo al intentar implementar una consulta similar en PDO, puede encontrar problemas como el que se describe en la...

Programación Publicado el 2025-04-07
¿Puedes usar CSS para la salida de la consola de color en Chrome y Firefox?
que muestra los colores en la console JavaScript es posible usar la consola de Chrome para mostrar texto coloreado, como rojo para errores, na...

Programación Publicado el 2025-04-07
¿Cómo establecer dinámicamente las claves en los objetos JavaScript?
cómo crear una clave dinámica para una variable de objeto JavaScript al intentar crear una clave dinámica para un objeto JavaScript, usando esta...

Programación Publicado el 2025-04-07
¿Cómo puedo iterar e imprimir sincrónicamente los valores de dos matrices de igual tamaño en PHP?
iterando e imprimiendo los valores de dos matrices del mismo tamaño cuando se crea un Selectbox usando dos matrices de igual tamaño, uno que con...

Programación Publicado el 2025-04-07

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo