Création d'Ollama Cloud – Mise à l'échelle de l'inférence locale vers le cloud - La programmation

Page de garde > La programmation > Création d'Ollama Cloud – Mise à l'échelle de l'inférence locale vers le cloud

Création d'Ollama Cloud – Mise à l'échelle de l'inférence locale vers le cloud

Publié le 2024-07-29

Parcourir:425

Ollama est principalement un wrapper autour de llama.cpp, conçu pour les tâches d'inférence locales. Ce n'est généralement pas votre premier choix si vous recherchez des performances ou des fonctionnalités de pointe, mais il a son utilité, en particulier dans les environnements où les dépendances externes sont un problème.

Développement local de l'IA

Lors de l'utilisation d'Ollama pour le développement d'IA locale, la configuration est simple mais efficace. Les développeurs utilisent généralement Ollama pour exécuter des tâches d'inférence directement sur leurs machines locales. Voici une représentation visuelle d'une configuration de développement local typique utilisant Ollama :

Typical Local Development with Ollama

Cette configuration permet aux développeurs de tester et d'itérer rapidement sans les complexités des communications avec le serveur distant. Il est idéal pour les phases initiales de prototypage et de développement où un délai d'exécution rapide est essentiel.

Du local au cloud

La transition d'une configuration locale vers un environnement cloud évolutif implique de passer d'une simple configuration 1:1 (une demande d'utilisateur à un hôte d'inférence) à une configuration plusieurs-à-plusieurs plus complexe (plusieurs demandes d'utilisateur à plusieurs hôtes d'inférence). . Ce changement est nécessaire pour maintenir l’efficacité et la réactivité à mesure que la demande augmente.

Voici à quoi ressemble cette mise à l'échelle lorsque l'on passe du développement local à la production :

View of Typical m:n Scaling

L'adoption d'une approche simple pendant cette transition peut augmenter considérablement la complexité des applications, d'autant plus que les sessions doivent maintenir la cohérence entre les différents états. Des retards et des inefficacités peuvent survenir si les demandes ne sont pas acheminées de manière optimale vers le meilleur hôte d'inférence disponible.

De plus, la nature complexe des applications distribuées rend difficile leur test local, ce qui peut ralentir le processus de développement et augmenter le risque de pannes dans les environnements de production.

Sans serveur

L'informatique sans serveur résume les détails de la gestion des serveurs et de l'infrastructure, permettant aux développeurs de se concentrer uniquement sur le code et la logique métier. En dissociant la gestion des requêtes et la maintenance de la cohérence de l'application, l'architecture sans serveur simplifie la mise à l'échelle.

Cette approche permet à l'application de rester concentrée sur la création de valeur, en résolvant de nombreux problèmes de mise à l'échelle courants sans surcharger les développeurs avec des complexités d'infrastructure.

Assemblage Web

WebAssembly (Wasm) relève le défi de la gestion des dépendances en permettant la compilation d'applications dans des modules autonomes. Cela facilite l'orchestration et le test des applications, à la fois localement et dans le cloud, garantissant ainsi la cohérence dans les différents environnements.

Tau

tau

Tau est un framework permettant de créer des plates-formes de cloud computing nécessitant peu de maintenance et hautement évolutives. Il excelle en simplicité et en extensibilité. Tau simplifie le déploiement et prend en charge l'exécution d'un cloud local pour le développement, permettant ainsi des tests de bout en bout (E2E) de l'infrastructure cloud et des applications qui y sont exécutées.

Cette approche, appelée par Taubyte « Le codage local équivaut à une production mondiale », garantit que ce qui fonctionne localement fonctionnera à l'échelle mondiale, facilitant considérablement les processus de développement et de déploiement.

Intégration d'Ollama dans Tau avec le système de plugin Orbit

Le système de plugins de Tau, connu sous le nom d'Orbit, simplifie considérablement la transformation des services en composants gérables en les encapsulant dans des modules hôtes WebAssembly. Cette approche permet à Tau de prendre en charge les tâches d'orchestration, rationalisant ainsi le processus de déploiement et de gestion.

Exporter des fonctions dans Ollama

Pour rendre les fonctions d'Ollama accessibles au sein de l'écosystème de Tau, nous utilisons le système Orbit pour exporter les capacités d'Ollama en tant que points de terminaison appelables. Voici comment exporter un point de terminaison dans Go :

func (s *ollama) W_pull(ctx context.Context, module satellite.Module, modelNamePtr uint32, modelNameSize uint32, pullIdptr uint32) Error {
    model, err := module.ReadString(modelNamePtr, modelNameSize)
    if err != nil {
        return ErrorReadMemory
    }

    id, updateFunc := s.getPullId(model)

    if updateFunc != nil {
        go func() {
            err = server.PullModel(s.ctx, model, &server.RegistryOptions{}, updateFunc)
            s.pullLock.Lock()
            defer s.pullLock.Unlock()
            s.pulls[id].err = err
        }()
    }

    module.WriteUint64(pullIdptr, id)

    return ErrorNone
}

Pour un exemple simple d'exportation de fonctions, vous pouvez vous référer à l'exemple hello_world.

Une fois définies, ces fonctions, désormais appelées via satellite.Export, permettent l'intégration transparente d'Ollama dans l'environnement de Tau :

func main() {
    server := new(context.TODO(), "/tmp/ollama-wasm")
    server.init()
    satellite.Export("ollama", server)
}

Rédaction de tests pour le plugin Ollama

Le test du plugin est simplifié et simple. Voici comment écrire un test de fonction sans serveur dans Go :

//export pull
func pull() {
    var id uint64
    err := Pull("gemma:2b-instruct", &id)
    if err != 0 {
        panic("failed to call pull")
    }
}

À l'aide de la suite de tests de Tau et des outils de création Go, vous pouvez créer votre plugin, le déployer dans un environnement de test et exécuter les fonctions sans serveur pour vérifier la fonctionnalité :

func TestPull(t *testing.T) {
    ctx := context.Background()

    // Create a testing suite to test the plugin
    ts, err := suite.New(ctx)
    assert.NilError(t, err)

    // Use a Go builder to build plugins and wasm
    gob := builder.New()

    // Build the plugin from the directory
    wd, _ := os.Getwd()
    pluginPath, err := gob.Plugin(path.Join(wd, "."), "ollama")
    assert.NilError(t, err)

    // Attach plugin to the testing suite
    err = ts.AttachPluginFromPath(pluginPath)
    assert.NilError(t, err)

    // Build a wasm file from serverless function
    wasmPath, err := gob.Wasm(ctx, path.Join(wd, "fixtures", "pull.go"), path.Join(wd, "fixtures", "common.go"))
    assert.NilError(t, err)

    // Load the wasm module and call the function
    module, err := ts.WasmModule(wasmPath)
    assert.NilError(t, err)

    // Call the "pull" function from our wasm module
    _, err = module.Call(ctx, "pull")
    assert.NilError(t, err)
}

Code

Vous pouvez trouver le code complet ici https://github.com/ollama-cloud/ollama-as-wasm-plugin/tree/main/tau

Et après?

Vous pouvez désormais créer facilement des applications LLM. Voici les étapes pour commencer :

Commencez localement en utilisant dream : configurez votre environnement local pour développer et tester votre application.
Créez un projet : démarrez un nouveau projet avec Tau pour exploiter tout son potentiel.
Créez votre cloud de production : déployez votre projet dans un environnement cloud de production.
Déposez le binaire du plugin dans le dossier /tb/plugins.
Importez votre projet en production
Frimer!

Déclaration de sortie Cet article est reproduit sur : https://dev.to/samyfodil/building-ollama-cloud-scaling-local-inference-to-the-cloud-2i1a?1 En cas de violation, veuillez contacter [email protected] pour le supprimer

Dernier tutoriel Plus>

Au-delà des instructions « if » : où d'autre un type avec une conversion « bool » explicite peut-il être utilisé sans conversion ?
Conversion contextuelle en bool autorisée sans conversionVotre classe définit une conversion explicite en bool, vous permettant d'utiliser son ins...

La programmation Publié le 2024-12-18
Comment réparer « ImproperlyConfigured : erreur de chargement du module MySQLdb » dans Django sur macOS ?
MySQL mal configuré : le problème avec les chemins relatifsLors de l'exécution de python manage.py runserver dans Django, vous pouvez rencontrer l...

La programmation Publié le 2024-12-18
Comment réparer « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion de données ?
Comment résoudre « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion d'enregistrementsIntroduction :L'insertion de d...

La programmation Publié le 2024-12-18
Utilisation de WebSockets dans Go pour la communication en temps réel
Créer des applications qui nécessitent des mises à jour en temps réel, comme des applications de chat, des notifications en direct ou des outils colla...

La programmation Publié le 2024-12-18
Comment puis-je trouver des utilisateurs dont les anniversaires sont aujourd'hui à l'aide de MySQL ?
Comment identifier les utilisateurs dont l'anniversaire est le jour à l'aide de MySQLDéterminer si aujourd'hui est l'anniversaire d...

La programmation Publié le 2024-12-18
Pourquoi la requête POST ne capture-t-elle pas l'entrée en PHP malgré un code valide ?
Résolution d'un dysfonctionnement de la requête POST en PHPDans l'extrait de code présenté :action=''au lieu de :action="<?php echo $_...

La programmation Publié le 2024-12-18
Comment combiner deux tableaux associatifs en PHP tout en préservant les identifiants uniques et en gérant les noms en double ?
Combiner des tableaux associatifs en PHPEn PHP, combiner deux tableaux associatifs en un seul tableau est une tâche courante. Considérez la requête su...

La programmation Publié le 2024-12-18
Qu'est-il arrivé à la compensation des colonnes dans Bootstrap 4 Beta ?
Bootstrap 4 Beta : suppression et restauration de la compensation de colonneBootstrap 4, dans sa version bêta 1, a introduit des changements important...

La programmation Publié le 2024-12-18
Les transitions CSS3 fournissent-elles des événements pour détecter les points de début et de fin ?
Comprendre les événements de transition CSS3Les transitions CSS3 permettent des animations fluides et des effets visuels sur les éléments Web. Pour am...

La programmation Publié le 2024-12-18
Pouvez-vous désallouer manuellement de la mémoire en Java ?
Désallocation manuelle de mémoire et récupération de place en JavaContrairement à C, Java utilise un cadre de mémoire géré dans lequel l'allocatio...

La programmation Publié le 2024-12-18
Comment déterminer de manière fiable si un fichier est un lien symbolique en Java 1.6 ?
Vérification des liens symboliques en Java 1.6La détermination de la présence de liens symboliques peut être cruciale pour diverses opérations de gest...

La programmation Publié le 2024-12-17
Comment rendre une couleur d’arrière-plan transparente tout en gardant le texte opaque ?
Opacité de la couleur d'arrière-plan sans affecter le texteDans le monde du développement Web, parvenir à la transparence est souvent essentiel po...

La programmation Publié le 2024-12-17
Comparaison de chaînes PHP : `==`, `===` ou `strcmp()` – Quel opérateur devez-vous utiliser ?
Comparaison de chaînes en PHP : '==', '===' ou 'strcmp()' ?Comparaison de chaînes en PHP peut être réalisé en utilisant différ...

La programmation Publié le 2024-12-17
Comment personnaliser les boutons et l'apparence de votre barre d'action ?
Personnalisation des boutons et de l'apparence de votre barre d'actionPour obtenir l'apparence personnalisée souhaitée de la barre d'a...

La programmation Publié le 2024-12-17
Présentation de l'analyseur de CV/analyseur de CV pour Laravel
Photo de Mohammad Rahmani sur Unsplash Sur la base de la popularité de notre point de terminaison API AI d'analyse de CV/CV, nous avons créé une b...

La programmation Publié le 2024-12-17

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article