Ollama クラウドの構築 - ローカル推論をクラウドに拡張する - プログラミング

表紙 > プログラミング > Ollama クラウドの構築 - ローカル推論をクラウドに拡張する

Ollama クラウドの構築 - ローカル推論をクラウドに拡張する

2024 年 7 月 29 日に公開

ブラウズ：730

Ollama は主に llama.cpp のラッパーであり、ローカル推論タスク用に設計されています。最先端のパフォーマンスや機能を探している場合、これは通常は最初の選択肢ではありませんが、特に外部依存関係が懸念される環境では用途があります。

ローカルAI開発

ローカル AI 開発に Ollama を使用する場合、セットアップは簡単ですが効果的です。通常、開発者は Ollama を利用して、ローカルマシン上で推論タスクを直接実行します。以下は、Ollama を使用した典型的なローカル開発セットアップを視覚的に示したものです:

Typical Local Development with Ollama

この構成により、開発者はリモートサーバー通信の複雑さを回避して、迅速にテストと反復を行うことができます。迅速な対応が重要な初期のプロトタイピングおよび開発段階に最適です。

ローカルからクラウドへ

ローカルセットアップからスケーラブルなクラウド環境への移行には、単純な 1:1 セットアップ (1 つの推論ホストに対する 1 つのユーザーリクエスト) から、より複雑な多対多 (複数の推論ホストに対する複数のユーザーリクエスト) 構成への進化が含まれます。。この移行は、需要が増加するにつれて効率と応答性を維持するために必要です。

ローカル開発から本番環境に移行するときのこのスケーリングは次のようになります:

View of Typical m:n Scaling

この移行中に単純なアプローチを採用すると、特にセッションがさまざまな状態間で一貫性を維持する必要があるため、アプリケーションの複雑さが大幅に増加する可能性があります。リクエストが利用可能な最適な推論ホストに最適にルーティングされない場合、遅延や非効率が発生する可能性があります。

さらに、分散アプリケーションは複雑な性質を持っているため、ローカルでのテストが難しく、開発プロセスが遅くなり、運用環境で障害が発生するリスクが高まる可能性があります。

サーバーレス

サーバーレスコンピューティングはサーバー管理とインフラストラクチャの詳細を抽象化し、開発者がコードとビジネスロジックだけに集中できるようにします。リクエストの処理と一貫性の維持をアプリケーションから切り離すことで、サーバーレスアーキテクチャによりスケーリングが簡素化されます。

このアプローチにより、アプリケーションは価値の提供に集中し続けることができ、インフラストラクチャの複雑さで開発者に負担をかけることなく、多くの一般的なスケーリング課題を解決できます。

Webアセンブリ

WebAssembly (Wasm) は、アプリケーションを自己完結型モジュールにコンパイルできるようにすることで、依存関係管理の課題に対処します。これにより、ローカルとクラウドの両方でアプリのオーケストレーションとテストが容易になり、さまざまな環境間での一貫性が確保されます。

タウ

tau

Tau は、メンテナンスの手間がかからず、拡張性の高いクラウドコンピューティングプラットフォームを構築するためのフレームワークです。シンプルさと拡張性に優れています。 Tau は展開を簡単にし、開発用のローカルクラウドの実行をサポートし、クラウドインフラストラクチャとその上で実行されるアプリケーションの両方のエンドツーエンド (E2E) テストを可能にします。

Taubyte が「ローカルコーディングとグローバルプロダクションの同等」と呼ぶこのアプローチは、ローカルで機能するものがグローバルでも機能することを保証し、開発と展開のプロセスを大幅に簡素化します。

Orbit プラグインシステムを使用して Ollama を Tau に統合する

Orbit として知られる Tau のプラグインシステムは、サービスを WebAssembly ホストモジュールにラップすることで、サービスを管理可能なコンポーネントに変換する作業を大幅に簡素化します。このアプローチにより、Tau がオーケストレーション業務を引き継ぎ、展開と管理のプロセスを合理化できるようになります。

Ollama のエクスポート関数

Tau のエコシステム内で Ollama 機能にアクセスできるようにするために、Orbit システムを利用して Ollama の機能を呼び出し可能なエンドポイントとしてエクスポートします。 Go でエンドポイントをエクスポートする方法は次のとおりです:

func (s *ollama) W_pull(ctx context.Context, module satellite.Module, modelNamePtr uint32, modelNameSize uint32, pullIdptr uint32) Error {
    model, err := module.ReadString(modelNamePtr, modelNameSize)
    if err != nil {
        return ErrorReadMemory
    }

    id, updateFunc := s.getPullId(model)

    if updateFunc != nil {
        go func() {
            err = server.PullModel(s.ctx, model, &server.RegistryOptions{}, updateFunc)
            s.pullLock.Lock()
            defer s.pullLock.Unlock()
            s.pulls[id].err = err
        }()
    }

    module.WriteUint64(pullIdptr, id)

    return ErrorNone
}

関数をエクスポートする簡単な例については、hello_world の例を参照してください。

一度定義すると、satellite.Export 経由で呼び出されるこれらの関数により、Ollama を Tau の環境にシームレスに統合できるようになります。

func main() {
    server := new(context.TODO(), "/tmp/ollama-wasm")
    server.init()
    satellite.Export("ollama", server)
}

Ollama プラグインのテストの作成

プラグインのテストは効率的かつ簡単です。 Go でサーバーレス関数テストを作成する方法は次のとおりです:

//export pull
func pull() {
    var id uint64
    err := Pull("gemma:2b-instruct", &id)
    if err != 0 {
        panic("failed to call pull")
    }
}

Tau のテストスイートと Go ビルダーツールを使用すると、プラグインを構築し、テスト環境にデプロイし、サーバーレス関数を実行して機能を検証できます。

func TestPull(t *testing.T) {
    ctx := context.Background()

    // Create a testing suite to test the plugin
    ts, err := suite.New(ctx)
    assert.NilError(t, err)

    // Use a Go builder to build plugins and wasm
    gob := builder.New()

    // Build the plugin from the directory
    wd, _ := os.Getwd()
    pluginPath, err := gob.Plugin(path.Join(wd, "."), "ollama")
    assert.NilError(t, err)

    // Attach plugin to the testing suite
    err = ts.AttachPluginFromPath(pluginPath)
    assert.NilError(t, err)

    // Build a wasm file from serverless function
    wasmPath, err := gob.Wasm(ctx, path.Join(wd, "fixtures", "pull.go"), path.Join(wd, "fixtures", "common.go"))
    assert.NilError(t, err)

    // Load the wasm module and call the function
    module, err := ts.WasmModule(wasmPath)
    assert.NilError(t, err)

    // Call the "pull" function from our wasm module
    _, err = module.Call(ctx, "pull")
    assert.NilError(t, err)
}

コード

完全なコードはここで見つけることができます https://github.com/ollama-cloud/ollama-as-wasm-plugin/tree/main/tau

次は何ですか？

LLM アプリケーションを簡単に構築できるようになりました。始める手順は次のとおりです:

dream を使用してローカルで開始する: アプリケーションを開発およびテストするためにローカル環境をセットアップします。
プロジェクトの作成: Tau の可能性を最大限に活用するために、Tau で新しいプロジェクトを開始します。
実稼働クラウドの作成: 実稼働クラウド環境にプロジェクトをデプロイします。
プラグインバイナリを /tb/plugins フォルダーにドロップします。
プロジェクトを本番環境にインポートします
見せびらかす！

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/samyfodil/building-ollama-cloud-scaling-local-inference-to-the-cloud-2i1a?1 侵害がある場合は、[email protected] までご連絡ください。それを削除するには

最新のチュートリアルもっと>

PDOパラメーターを使用してクエリのように正しく使用する方法は？
を使用してpdo PDOで同様のクエリを実装しようとすると、以下のクエリのような問題に遭遇する可能性があります： $query = "SELECT * FROM tbl WHERE address LIKE '%?%' OR address LIKE '%?%'";...

プログラミング 2025-04-03に投稿されました
なぜ有効なコードにもかかわらず、PHPで入力をキャプチャするリクエストを要求するのはなぜですか？
アドレス指定Php action='' を使用して、フォームの提出後に$ _POSTアレイの内容を確認します。適切に： if（empty（$ _ server ['content_type']）） { $ _Server ['content_typ...

プログラミング 2025-04-03に投稿されました
Python読み取りCSVファイルUnicodedeCodeError究極のソリューション
unicode decodeエラーがcsvファイルreading 内蔵csvモジュールを使用してpythonにcsvファイルを読み込もうとする場合、エラーが発生する可能性があります： SyntaxError: (unicode error) 'unicodeescape' codec ...

プログラミング 2025-04-03に投稿されました
Google APIから最新のjQueryライブラリを取得する方法は？
Google Apis から最新のjQueryライブラリを取得します。最新バージョンを取得するために、以前は特定のバージョン番号を使用する代替手段がありました。これは、次の構文を使用するものでした。 /latest/jquery.js .jquery.com/jQuery-latest...

プログラミング 2025-04-03に投稿されました
decimal.parse（）を使用して指数表記で数値を解析する方法は？
指数表記からの数字を解析する場合、decimal.parse（ "1.2345e-02"）を使用して指数表記で表現された文字列を解析しようとすると、エラーが発生します。これは、デフォルトの解析方法が指数表記法を認識しないためです。次の例に示すように、numberSty...

プログラミング 2025-04-03に投稿されました
ChatBotコマンドの実行のためにリアルタイムでstdoutをキャプチャしてストリーミングする方法は？
コマンド実行からリアルタイムでstdoutをキャプチャする再起動のライン（コマンド）： print（line）このコードでは、subprocess.popen（）関数を使用して指定されたコマンドを実行します。 stdoutパラメーターは、subprocess....

プログラミング 2025-04-03に投稿されました
CSSを使用してChromeとFirefoxのコンソール出力を着色できますか？
javaScriptコンソールの色の表示は、クロムのコンソールを使用してエラー用の赤、警告用のオレンジ、コンソール用グリーンなどの色のテキストを表示することは可能です。メッセージ？回答はい、CSSを使用して、ChromeとFirefox（バージョン31以降）のコンソールに表示さ...

プログラミング 2025-04-03に投稿されました
オブジェクトフィット：IEとEdgeでカバーが失敗します、修正方法は？
object-fit：カバーがIEとEDGEで失敗します。 CSSでは、一貫した画像の高さを維持するために、ブラウザ全体でシームレスに動作します。ただし、IEとEdgeでは、独特の問題が発生します。ブラウザをスケーリングすると、画像は高さをズームするのではなく幅でサイズを変更し、外観を歪め...

プログラミング 2025-04-03に投稿されました
交換指令を使用して、GO modのモジュールパスの不一致を解決する方法は？
go mod のモジュールパスの不一致を克服するgo modを利用する場合、輸入パッケージと実際の輸入パスの間のパスミスマッチとのパスミスマッチで、第三者パッケージが別のパッケージをインポートする紛争に遭遇する可能性があります。エコーされたメッセージで示されているように、これはGo M...

プログラミング 2025-04-03に投稿されました
Javaのフルスクリーン専用モードでユーザー入力を処理する方法は？
ハンドリングユーザー入力は、java intuling in full screenの排他的モードでのフルスクリーンの排他的モードでのハンドリングを排他的モードで実行するとき、通常のイベント処理メカニズムは予想されるように機能しない場合があります。この記事では、このモードでキーボード...

プログラミング 2025-04-03に投稿されました
Node-MYSQLを使用して単一のクエリで複数のSQLステートメントを実行するにはどうすればよいですか？
node-mysql in node.jsでのマルチステートメントクエリサポート、ノード-Mysqlパッケージを使用してnode-mysqlを使用してnode-mysqlを使用して、1つのクエリを使用してnode-mysqlの記録を使用して、1つのクエリで複数のsqlステートメントを...

プログラミング 2025-04-03に投稿されました
なぜ私の線形勾配の背景にストライプがあるのか、どうすればそれらを修正できますか？
リニアグラデーションからの背景ストライプを追放する背景に線形勾配プロパティを使用する場合、方向が上または下に設定されているときに顕著なストライプに遭遇する場合があります。これらの見苦しいアーティファクトは、複雑なバックグラウンド伝播現象に起因する可能性があります。その後、線形勾配はこの高...

プログラミング 2025-04-03に投稿されました
$PHP \の機能の再定義制限を克服する方法は？$
PHP \の機能の再定義制限を克服する方法は？
PHPの関数の再定義制限をPHPで克服することは、同じ名前の関数を複数回定義することはノーではありません。提供されたコードスニペットで見られるように、そうすることは、恐ろしい「再び削除できない」エラーになります。 $ b）{ $ a * $ b; } を返しますが、PHPツールベ...

プログラミング 2025-04-03に投稿されました
$ポイントインポリゴン検出により効率的な方法：Ray TracingまたはMatplotlib \ 's path.contains_points？$
ポイントインポリゴン検出により効率的な方法：Ray TracingまたはMatplotlib \ 's path.contains_points？
Pythonの効率的なポイントインポリゴン検出ポリゴン内にあるかどうかを決定することは、計算ジオメトリの頻繁なタスクです。このタスクの効率的な方法を見つけることは、多数のポイントを評価する場合に有利です。ここでは、一般的に使用される2つの方法を調査して比較します：Ray TracingとM...

プログラミング 2025-04-03に投稿されました
「JSON」パッケージを使用してGOでJSONアレイを解析する方法は？
json arrays in jsonパッケージ問題：次のGOコードを検討してください：タイプjsontype struct { 配列[]文字列 } func main（）{ datajson：= `[" 1 "、" 2 "...

プログラミング 2025-04-03に投稿されました