J'ai essayé Granite.

Page de garde > La programmation > J'ai essayé Granite.

J'ai essayé Granite.

Publié le 2024-11-08

Parcourir:579

I tried out Granite .

Granit 3.0

Granite 3.0 est une famille légère et open source de modèles de langage génératifs conçus pour une gamme de tâches au niveau de l'entreprise. Il prend en charge de manière native les fonctionnalités, le codage, le raisonnement et l'utilisation d'outils multilingues, ce qui le rend adapté aux environnements d'entreprise.

J'ai testé l'exécution de ce modèle pour voir quelles tâches il peut gérer.

Configuration de l'environnement

J'ai configuré l'environnement Granite 3.0 dans Google Colab et installé les bibliothèques nécessaires à l'aide des commandes suivantes :

!pip install torch torchvision torchaudio
!pip install accelerate
!pip install -U transformers

Exécution

J'ai testé les performances des modèles 2B et 8B de Granite 3.0.

Modèle 2B

J'ai exécuté le modèle 2B. Voici l'exemple de code pour le modèle 2B :

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "auto"
model_path = "ibm-granite/granite-3.0-2b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()

chat = [
    { "role": "user", "content": "Please list one IBM Research laboratory located in the United States. You should only output its name and location." },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
input_tokens = tokenizer(chat, return_tensors="pt").to("cuda")
output = model.generate(**input_tokens, max_new_tokens=100)
output = tokenizer.batch_decode(output)
print(output[0])

Sortir

userPlease list one IBM Research laboratory located in the United States. You should only output its name and location.
assistant1. IBM Research - Austin, Texas

Modèle 8B

Le modèle 8B peut être utilisé en remplaçant 2b par 8b. Voici un exemple de code sans champs de rôle et de saisie utilisateur pour le modèle 8B :

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "auto"
model_path = "ibm-granite/granite-3.0-8b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()

chat = [
    { "content": "Please list one IBM Research laboratory located in the United States. You should only output its name and location." },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

input_tokens = tokenizer(chat, add_special_tokens=False, return_tensors="pt").to("cuda")
output = model.generate(**input_tokens, max_new_tokens=100)
generated_text = tokenizer.decode(output[0][input_tokens["input_ids"].shape[1]:], skip_special_tokens=True)
print(generated_text)

Sortir

1. IBM Almaden Research Center - San Jose, California

Appel de fonction

J'ai exploré la fonctionnalité d'appel de fonction, en la testant avec une fonction factice. Ici, get_current_weather est défini pour renvoyer des données météorologiques simulées.

Fonction factice

import json

def get_current_weather(location: str) -> dict:
    """
    Retrieves current weather information for the specified location (default: San Francisco).
    Args:
        location (str): Name of the city to retrieve weather data for.
    Returns:
        dict: Dictionary containing weather information (temperature, description, humidity).
    """
    print(f"Getting current weather for {location}")

    try:
        weather_description = "sample"
        temperature = "20.0"
        humidity = "80.0"

        return {
            "description": weather_description,
            "temperature": temperature,
            "humidity": humidity
        }
    except Exception as e:
        print(f"Error fetching weather data: {e}")
        return {"weather": "NA"}

Création d'invite

J'ai créé une invite pour appeler la fonction :

functions = [
    {
        "name": "get_current_weather",
        "description": "Get the current weather",
        "parameters": {
            "type": "object",
            "properties": {
                "location": {
                    "type": "string",
                    "description": "The city and country code, e.g. San Francisco, US",
                }
            },
            "required": ["location"],
        },
    },
]
query = "What's the weather like in Boston?"
payload = {
    "functions_str": [json.dumps(x) for x in functions]
}
chat = [
    {"role":"system","content": f"You are a helpful assistant with access to the following function calls. Your task is to produce a sequence of function calls necessary to generate response to the user utterance. Use the following function calls as required.{payload}"},
    {"role": "user", "content": query }
]

Génération de réponses

À l'aide du code suivant, j'ai généré une réponse :

instruction_1 = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
input_tokens = tokenizer(instruction_1, return_tensors="pt").to("cuda")
output = model.generate(**input_tokens, max_new_tokens=1024)
generated_text = tokenizer.decode(output[0][input_tokens["input_ids"].shape[1]:], skip_special_tokens=True)
print(generated_text)

Sortir

{'name': 'get_current_weather', 'arguments': {'location': 'Boston'}}

Cela a confirmé la capacité du modèle à générer l'appel de fonction correct en fonction de la ville spécifiée.

Spécification de format pour un flux d'interaction amélioré

Granite 3.0 permet la spécification de format pour faciliter les réponses dans des formats structurés. Cette section explique l'utilisation de [UTTERANCE] pour les réponses et de [THINK] pour les pensées intérieures.

D'un autre côté, étant donné que l'appel de fonction est généré sous forme de texte brut, il peut être nécessaire d'implémenter un mécanisme distinct pour faire la distinction entre les appels de fonction et les réponses en texte normal.

Spécification du format de sortie

Voici un exemple d'invite pour guider la sortie de l'IA :

prompt = """You are a conversational AI assistant that deepens interactions by alternating between responses and inner thoughts.

* Record spoken responses after the [UTTERANCE] tag and inner thoughts after the [THINK] tag.
* Use [UTTERANCE] as a start marker to begin outputting an utterance.
* After [THINK], describe your internal reasoning or strategy for the next response. This may include insights on the user's reaction, adjustments to improve interaction, or further goals to deepen the conversation.
* Important: **Use [UTTERANCE] and [THINK] as a start signal without needing a closing tag.**


Follow these instructions, alternating between [UTTERANCE] and [THINK] formats for responses.

example1:
  [UTTERANCE]Hello! How can I assist you today?[THINK]I’ll start with a neutral tone to understand their needs. Preparing to offer specific suggestions based on their response.[UTTERANCE]Thank you! In that case, I have a few methods I can suggest![THINK]Since I now know what they’re looking for, I'll move on to specific suggestions, maintaining a friendly and approachable tone.
...
example>

Please respond to the following user_input.

Hello! What can you do?

"""

Exemple de code d'exécution

le code pour générer une réponse :

chat = [
    { "role": "user", "content": prompt },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

input_tokens = tokenizer(chat, return_tensors="pt").to("cuda")
output = model.generate(**input_tokens, max_new_tokens=1024)
generated_text = tokenizer.decode(output[0][input_tokens["input_ids"].shape[1]:], skip_special_tokens=True)
print(generated_text)

Exemple de sortie

Le résultat est le suivant :

[UTTERANCE]Hello! I'm here to provide information, answer questions, and assist with various tasks. I can help with a wide range of topics, from general knowledge to specific queries. How can I assist you today?
[THINK]I've introduced my capabilities and offered assistance, setting the stage for the user to share their needs or ask questions.

Les balises [UTTERANCE] et [THINK] ont été utilisées avec succès, permettant un formatage efficace des réponses.

En fonction de l'invite, des balises de fermeture (telles que [/UTTERANCE] ou [/THINK]) peuvent parfois apparaître dans la sortie, mais dans l'ensemble, le format de sortie peut généralement être spécifié avec succès.

Exemple de code de diffusion en continu

Voyons également comment générer des réponses en streaming.

Le code suivant utilise les bibliothèques asyncio et threading pour diffuser de manière asynchrone les réponses de Granite 3.0.

import asyncio
from threading import Thread
from typing import AsyncIterator
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    TextIteratorStreamer,
)

device = "auto"
model_path = "ibm-granite/granite-3.0-8b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()

async def generate(chat) -> AsyncIterator[str]:
    # Apply chat template and tokenize input
    chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
    input_tokens = tokenizer(chat, add_special_tokens=False, return_tensors="pt").to("cuda")

    # Set up the streamer
    streamer = TextIteratorStreamer(
        tokenizer,
        skip_prompt=True,
        skip_special_tokens=True,
    )
    generation_kwargs = dict(
        **input_tokens,
        streamer=streamer,
        max_new_tokens=1024,
    )
    # Generate response in a separate thread
    thread = Thread(target=model.generate, kwargs=generation_kwargs)
    thread.start()

    for output in streamer:
        if not output:
            continue
        await asyncio.sleep(0)
        yield output

# Execute asynchronous generation in the main function
async def main():
    chat = [
        { "role": "user", "content": "Please list one IBM Research laboratory located in the United States. You should only output its name and location." },
    ]
    generator = generate(chat)
    async for output in generator:  # Use async for to retrieve responses sequentially
        print(output, end="|")

await main()

Exemple de sortie

L'exécution du code ci-dessus générera des réponses asynchrones au format suivant :

1. |IBM |Almaden |Research |Center |- |San |Jose, |California|

Cet exemple illustre une diffusion en continu réussie. Chaque jeton est généré de manière asynchrone et affiché de manière séquentielle, permettant aux utilisateurs de visualiser le processus de génération en temps réel.

Résumé

Granite 3.0 fournit des réponses raisonnablement fortes, même avec le modèle 8B. Les fonctionnalités d'appel de fonction et de spécification de format fonctionnent également très bien, indiquant son potentiel pour un large éventail d'applications.

Déclaration de sortie Cet article est reproduit sur : https://dev.to/m_sea_bass/i-tried-out-granite-30-53lm?1 En cas de violation, veuillez contacter [email protected] pour le supprimer.

Dernier tutoriel Plus>

Comment créer une animation CSS à gauche à gauche en douceur pour une div dans son conteneur?
Animation CSS générique pour le mouvement gauche-droit Dans cet article, nous explorerons la création d'une animation CSS générique pour d...

La programmation Publié le 2025-04-07
$Comment résoudre l'utilisation \ "invalide de la fonction de groupe \" Erreur dans MySQL lors de la recherche de nombre maximum?$
Comment résoudre l'utilisation \ "invalide de la fonction de groupe \" Erreur dans MySQL lors de la recherche de nombre maximum?
Comment récupérer le nombre maximal en utilisant mysql dans MySQL, vous pouvez rencontrer un problème tout en essayant de trouver le nombre ma...

La programmation Publié le 2025-04-07
JS et bases
Guide d'un débutant sur les principes fondamentaux de javascript et de programmation javascript (js) est un langage de programmation puiss...

La programmation Publié le 2025-04-07
Pourquoi les comparaisons booléennes «Flake8» sont-elles dans les clauses de filtre Sqlalchemy?
flake8 Flagging Boolean Comparison in Filter ClauseWhen attempting to filter query results based on a boolean comparison in SQL, developers may encoun...

La programmation Publié le 2025-04-07
Java autorise-t-il plusieurs types de retour: un regard plus approfondi sur les méthodes génériques?
Plusieurs types de retour en java: une idée fausse dévoilée dans le domaine de la programmation java, une signature de méthode particulière pe...

La programmation Publié le 2025-04-07
Comment puis-je gérer les noms de fichiers UTF-8 dans les fonctions du système de fichiers de PHP?
Gestion des noms de fichiers UTF-8 dans les fonctions de fichiers de Php Lors de la création de dossiers contenant des caractères UTF-8 à l...

La programmation Publié le 2025-04-07
Quelles ont été les restrictions sur l'utilisation de Current_timestamp avec des colonnes horodatotes dans MySQL avant la version 5.6.5?
Restrictions sur les colonnes horodat Clause actuelle_timestamp. Cette limitation s'est étendue aux entiers INT, BigInt et SmallInt lorsqu'...

La programmation Publié le 2025-04-07
Pourquoi y a-t-il des rayures dans mon fond de dégradé linéaire, et comment puis-je les réparer?
bannissant les bandes d'arrière-plan à partir du gradient linéaire Lorsque vous utilisez la propriété linéaire-gradient pour un arrière-pl...

La programmation Publié le 2025-04-07
Comment récupérer efficacement la dernière ligne pour chaque identifiant unique dans PostgreSQL?
PostgreSQL: Extraction de la dernière ligne pour chaque identifiant unique Dans PostgreSql, vous pouvez rencontrer des situations de données o...

La programmation Publié le 2025-04-07
Comment ajouter la base de données MySQL à la boîte de dialogue DataSource dans Visual Studio 2012?
Ajout de la base de données MySQL à la boîte de dialogue DataSource dans Visual Studio 2012 En travaillant avec Entity Framework et MySQL, l&#...

La programmation Publié le 2025-04-07
Comment gérer la saisie des utilisateurs dans le mode exclusif complet de Java?
Gestion de la saisie de l'utilisateur en mode exclusif en plein écran en java introduction Lors de l'exécution d'une application...

La programmation Publié le 2025-04-07
Comment puis-je styliser la première instance d'un type d'élément spécifique sur un document HTML entier?
correspondant au premier élément d'un certain type dans tout le document Styling Le premier élément d'un type spécifique à travers un...

La programmation Publié le 2025-04-07
Pourquoi ma configuration de GO à Homebrew provoque-t-elle des problèmes d'exécution de ligne de commande?
Brew Go Configuration vs Exécution de la ligne de commande Vous avez initialement installé aller à l'aide de Homebrew, un gestionnaire de ...

La programmation Publié le 2025-04-07
Comment puis-je syndicrer des tables de base de données avec différents nombres de colonnes?
Tables combinées avec différentes colonnes ] peut rencontrer des défis lorsque vous essayez de fusionner les tables de base de données avec dif...

La programmation Publié le 2025-04-07
Comment afficher correctement la date et l'heure actuelles dans le format "DD / MM / YYYY HH: MM: SS.SS" en Java?
Comment afficher la date et l'heure actuelles dans "dd / mm / yyyy hh: mm: ss.ss" format dans le code java fourni, le problème a...

La programmation Publié le 2025-04-07

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article