”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 构建 Ollama Cloud - 将本地推理扩展到云端

构建 Ollama Cloud - 将本地推理扩展到云端

发布于2024-07-29
浏览:642

Ollama 主要是 llama.cpp 的包装器,专为本地推理任务而设计。如果您正在寻找尖端的性能或功能,它通常不是您的首选,但它有其用途,特别是在需要考虑外部依赖项的环境中。

本地人工智能开发

使用 Ollama 进行本地 AI 开发时,设置简单但有效。开发人员通常利用 Ollama 直接在本地计算机上运行推理任务。以下是使用 Ollama 的典型本地开发设置的直观描述:

Typical Local Development with Ollama

此配置允许开发人员快速测试和迭代,而无需复杂的远程服务器通信。它非常适合快速周转至关重要的初始原型设计和开发阶段。

从本地到云端

从本地设置过渡到可扩展的云环境涉及从简单的 1:1 设置(一个用户请求到一台推理主机)演变为更复杂的多对多(多个用户请求到多个推理主机)配置。随着需求的增加,这种转变对于保持效率和响应能力是必要的。

以下是从本地开发转向生产时的扩展情况:

View of Typical m:n Scaling

在此过渡期间采用简单的方法可能会显着增加应用程序的复杂性,特别是当会话需要在不同状态之间保持一致性时。如果请求未最佳路由到最佳可用推理主机,则可能会出现延迟和效率低下。

此外,分布式应用程序的复杂性使得它们在本地测试变得具有挑战性,这会减慢开发过程并增加生产环境中失败的风险。

无服务器

无服务器计算抽象了服务器管理和基础设施细节,使开发人员能够专注于代码和业务逻辑。通过将请求处理和一致性维护与应用程序解耦,无服务器架构简化了扩展。

这种方法允许应用程序继续专注于提供价值,解决许多常见的扩展挑战,而不会给开发人员带来基础设施复杂性的负担。

网络组装

WebAssembly (Wasm) 通过将应用程序编译成独立的模块来解决依赖管理的挑战。这使得应用程序在本地和云中更容易编排和测试,确保不同环境之间的一致性。

牛头蛋白

tau

Tau 是一个用于构建低维护和高度可扩展的云计算平台的框架。它在简单性和可扩展性方面表现出色。 Tau 使部署变得简单,并支持运行本地云进行开发,从而允许对云基础设施及其上运行的应用程序进行端到端 (E2E) 测试。

这种方法被 Taubyte 称为“本地编码等于全球生产”,可确保本地工作也能在全球范围内工作,从而显着简化开发和部署流程。

使用 Orbit 插件系统将 Ollama 集成到 Tau 中

Tau 的插件系统(称为 Orbit)通过将服务包装到 WebAssembly 主机模块中,显着简化了将服务转变为可管理组件的过程。这种方法允许 Tau 接管编排职责,简化部署和管理流程。

Ollama 中的导出函数

为了使 Ollama 功能可以在 Tau 生态系统中访问,我们利用 Orbit 系统将 Ollama 的功能导出为可调用端点。以下是在 Go 中导出端点的方法:

func (s *ollama) W_pull(ctx context.Context, module satellite.Module, modelNamePtr uint32, modelNameSize uint32, pullIdptr uint32) Error {
    model, err := module.ReadString(modelNamePtr, modelNameSize)
    if err != nil {
        return ErrorReadMemory
    }

    id, updateFunc := s.getPullId(model)

    if updateFunc != nil {
        go func() {
            err = server.PullModel(s.ctx, model, &server.RegistryOptions{}, updateFunc)
            s.pullLock.Lock()
            defer s.pullLock.Unlock()
            s.pulls[id].err = err
        }()
    }

    module.WriteUint64(pullIdptr, id)

    return ErrorNone
}

导出函数的简单示例,可以参考hello_world示例。

一旦定义,这些函数(现在通过卫星调用。导出)可以将 Ollama 无缝集成到 Tau 的环境中:

func main() {
    server := new(context.TODO(), "/tmp/ollama-wasm")
    server.init()
    satellite.Export("ollama", server)
}

为 Ollama 插件编写测试

测试插件是简化和简单的。以下是如何在 Go 中编写无服务器功能测试:

//export pull
func pull() {
    var id uint64
    err := Pull("gemma:2b-instruct", &id)
    if err != 0 {
        panic("failed to call pull")
    }
}

使用 Tau 的测试套件和 Go 构建器工具,您可以构建插件,将其部署在测试环境中,并执行无服务器函数来验证功能:

func TestPull(t *testing.T) {
    ctx := context.Background()

    // Create a testing suite to test the plugin
    ts, err := suite.New(ctx)
    assert.NilError(t, err)

    // Use a Go builder to build plugins and wasm
    gob := builder.New()

    // Build the plugin from the directory
    wd, _ := os.Getwd()
    pluginPath, err := gob.Plugin(path.Join(wd, "."), "ollama")
    assert.NilError(t, err)

    // Attach plugin to the testing suite
    err = ts.AttachPluginFromPath(pluginPath)
    assert.NilError(t, err)

    // Build a wasm file from serverless function
    wasmPath, err := gob.Wasm(ctx, path.Join(wd, "fixtures", "pull.go"), path.Join(wd, "fixtures", "common.go"))
    assert.NilError(t, err)

    // Load the wasm module and call the function
    module, err := ts.WasmModule(wasmPath)
    assert.NilError(t, err)

    // Call the "pull" function from our wasm module
    _, err = module.Call(ctx, "pull")
    assert.NilError(t, err)
}

代码

您可以在这里找到完整的代码 https://github.com/ollama-cloud/ollama-as-wasm-plugin/tree/main/tau

下一步是什么?

您现在可以轻松构建 LLM 申请。以下是开始步骤:

  • 在本地开始使用 dream:设置本地环境来开发和测试您的应用程序。
  • 创建项目:使用 Tau 开始一个新项目,以充分发挥其潜力。
  • 创建您的生产云:在生产云环境中部署您的项目。
  • 将插件二进制文件拖放到 /tb/plugins 文件夹中。
  • 将您的项目导入生产环境
  • 炫耀!
版本声明 本文转载于:https://dev.to/samyfodil/building-ollama-cloud-scaling-local-inference-to-the-cloud-2i1a?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 尽管代码有效,为什么 POST 请求无法捕获 PHP 中的输入?
    尽管代码有效,为什么 POST 请求无法捕获 PHP 中的输入?
    解决 PHP 中的 POST 请求故障在提供的代码片段中:action=''而不是:action="<?php echo $_SERVER['PHP_SELF'];?>";?>"检查 $_POST数组:表单提交后使用 var_dump 检查 $_POST 数...
    编程 发布于2024-12-18
  • 除了“if”语句之外:还有什么地方可以在不进行强制转换的情况下使用具有显式“bool”转换的类型?
    除了“if”语句之外:还有什么地方可以在不进行强制转换的情况下使用具有显式“bool”转换的类型?
    无需强制转换即可上下文转换为 bool您的类定义了对 bool 的显式转换,使您能够在条件语句中直接使用其实例“t”。然而,这种显式转换提出了一个问题:“t”在哪里可以在不进行强制转换的情况下用作 bool?上下文转换场景C 标准指定了四种值可以根据上下文转换为的主要场景bool:语句:if、whi...
    编程 发布于2024-12-18
  • 插入数据时如何修复“常规错误:2006 MySQL 服务器已消失”?
    插入数据时如何修复“常规错误:2006 MySQL 服务器已消失”?
    插入记录时如何解决“一般错误:2006 MySQL 服务器已消失”介绍:将数据插入 MySQL 数据库有时会导致错误“一般错误:2006 MySQL 服务器已消失”。当与服务器的连接丢失时会出现此错误,通常是由于 MySQL 配置中的两个变量之一所致。解决方案:解决此错误的关键是调整wait_tim...
    编程 发布于2024-12-18
  • Bootstrap 4 Beta 中的列偏移发生了什么?
    Bootstrap 4 Beta 中的列偏移发生了什么?
    Bootstrap 4 Beta:列偏移的删除和恢复Bootstrap 4 在其 Beta 1 版本中引入了重大更改柱子偏移了。然而,随着 Beta 2 的后续发布,这些变化已经逆转。从 offset-md-* 到 ml-auto在 Bootstrap 4 Beta 1 中, offset-md-*...
    编程 发布于2024-12-18
  • 如何修复 macOS 上 Django 中的“配置不正确:加载 MySQLdb 模块时出错”?
    如何修复 macOS 上 Django 中的“配置不正确:加载 MySQLdb 模块时出错”?
    MySQL配置不正确:相对路径的问题在Django中运行python manage.py runserver时,可能会遇到以下错误:ImproperlyConfigured: Error loading MySQLdb module: dlopen(/Library/Python/2.7/site-...
    编程 发布于2024-12-18
  • 在 Go 中使用 WebSocket 进行实时通信
    在 Go 中使用 WebSocket 进行实时通信
    构建需要实时更新的应用程序(例如聊天应用程序、实时通知或协作工具)需要一种比传统 HTTP 更快、更具交互性的通信方法。这就是 WebSockets 发挥作用的地方!今天,我们将探讨如何在 Go 中使用 WebSocket,以便您可以向应用程序添加实时功能。 在这篇文章中,我们将介绍: WebSoc...
    编程 发布于2024-12-18
  • 如何使用 MySQL 查找今天生日的用户?
    如何使用 MySQL 查找今天生日的用户?
    如何使用 MySQL 识别今天生日的用户使用 MySQL 确定今天是否是用户的生日涉及查找生日匹配的所有行今天的日期。这可以通过一个简单的 MySQL 查询来实现,该查询将存储为 UNIX 时间戳的生日与今天的日期进行比较。以下 SQL 查询将获取今天有生日的所有用户: FROM USERS ...
    编程 发布于2024-12-18
  • 如何在 PHP 中组合两个关联数组,同时保留唯一 ID 并处理重复名称?
    如何在 PHP 中组合两个关联数组,同时保留唯一 ID 并处理重复名称?
    在 PHP 中组合关联数组在 PHP 中,将两个关联数组组合成一个数组是一项常见任务。考虑以下请求:问题描述:提供的代码定义了两个关联数组,$array1 和 $array2。目标是创建一个新数组 $array3,它合并两个数组中的所有键值对。 此外,提供的数组具有唯一的 ID,而名称可能重合。要求...
    编程 发布于2024-12-18
  • 大批
    大批
    方法是可以在对象上调用的 fns 数组是对象,因此它们在 JS 中也有方法。 slice(begin):将数组的一部分提取到新数组中,而不改变原始数组。 let arr = ['a','b','c','d','e']; // Usecase: Extract till index p...
    编程 发布于2024-12-18
  • CSS3 过渡是否提供事件来检测起点和终点?
    CSS3 过渡是否提供事件来检测起点和终点?
    了解 CSS3 过渡事件CSS3 过渡允许在 Web 元素上实现流畅的动画和视觉效果。为了增强用户体验并使操作与这些转换同步,监控其进度非常重要。本文解决了 CSS3 是否提供事件来检查过渡何时开始或结束的问题。W3C CSS 过渡草案W3C CSS 过渡草案规定CSS 转换会触发相应的 DOM 事...
    编程 发布于2024-12-18
  • Java 中可以手动释放内存吗?
    Java 中可以手动释放内存吗?
    Java 中的手动内存释放与垃圾回收与 C 不同,Java 采用托管内存框架来处理内存分配和释放由垃圾收集器 (GC) 自动执行。这种自动化方法可以提高内存利用率并防止困扰 C 程序的内存泄漏。Java 中可以手动释放内存吗?由于 Java 的内存管理是由GC,它没有提供像 C 中的 free() ...
    编程 发布于2024-12-18
  • Java 1.6 中如何可靠地确定文件是否为符号链接?
    Java 1.6 中如何可靠地确定文件是否为符号链接?
    在 Java 1.6 中验证符号链接确定符号链接的存在对于各种文件处理操作至关重要。在 Java 中,识别符号链接时需要考虑一些潜在问题,特别是在目录遍历的上下文中。检查符号链接的一种常见方法是比较文件的绝对路径和规范路径。规范路径表示文件的标准化路径,而绝对路径可能包括符号链接。传统上,概念是如果...
    编程 发布于2024-12-17
  • 如何使背景颜色透明,同时保持文本不透明?
    如何使背景颜色透明,同时保持文本不透明?
    背景颜色的不透明度而不影响文本在 Web 开发领域,实现透明度通常对于增强视觉吸引力和网站元素的功能。一项常见的要求是对 div 背景应用透明度,同时保留所包含文本的不透明度。这可能会带来挑战,特别是在确保跨浏览器兼容性方面。rgba 解决方案最有效且得到广泛支持的解决方案是利用“RGBA”(红、绿...
    编程 发布于2024-12-17
  • PHP 字符串比较:`==`、`===` 或 `strcmp()` – 您应该使用哪个运算符?
    PHP 字符串比较:`==`、`===` 或 `strcmp()` – 您应该使用哪个运算符?
    PHP 中的字符串比较:'=='、'===' 或 'strcmp()'?PHP 中的字符串比较PHP 可以使用不同的运算符来完成,例如“==”、“===”或“strcmp()”函数。此比较涉及检查两个字符串是否相等。'==' 与 ...
    编程 发布于2024-12-17
  • 如何自定义操作栏的按钮和外观?
    如何自定义操作栏的按钮和外观?
    自定义操作栏的按钮和外观要实现所需的自定义操作栏外观,请考虑以下步骤: 1.创建自定义操作按钮要将图像包含为按钮,请通过扩展 Button 类来定义自定义视图。然后可以将此自定义视图显示在 ActionBar 上,如下所示:<Button android:id="@ id/m...
    编程 发布于2024-12-17

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3