」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 使用 OpenVINO 和 Postgres 建立快速且有效率的語意搜尋系統

使用 OpenVINO 和 Postgres 建立快速且有效率的語意搜尋系統

發佈於2024-11-07
瀏覽:554

Building a Fast and Efficient Semantic Search System Using OpenVINO and Postgres

照片由 real-napster 在 Pixabay上拍摄

在我最近的一个项目中,我必须构建一个语义搜索系统,该系统可以高性能扩展并为报告搜索提供实时响应。我们在 AWS RDS 上使用 PostgreSQL 和 pgvector,并搭配 AWS Lambda 来实现这一目标。面临的挑战是允许用户使用自然语言查询而不是依赖严格的关键字进行搜索,同时确保响应时间在 1-2 秒甚至更短,并且只能利用 CPU 资源。

在这篇文章中,我将逐步介绍构建此搜索系统的步骤,从检索到重新排名,以及使用 OpenVINO 和智能批处理进行标记化进行的优化。

语义搜索概述:检索和重新排序

现代最先进的搜索系统通常由两个主要步骤组成:检索重新排名

1) 检索:第一步涉及根据用户查询检索相关文档的子集。这可以使用预先训练的嵌入模型来完成,例如 OpenAI 的小型和大型嵌入、Cohere 的嵌入模型或 Mixbread 的 mxbai 嵌入。检索的重点是通过测量文档与查询的相似性来缩小文档池的范围。

这是一个使用 Huggingface 的句子转换器库进行检索的简化示例,这是我最喜欢的库之一:

from sentence_transformers import SentenceTransformer
import numpy as np

# Load a pre-trained sentence transformer model
model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# Sample query and documents (vectorize the query and the documents)
query = "How do I fix a broken landing gear?"
documents = ["Report 1 on landing gear failure", "Report 2 on engine problems"]

# Get embeddings for query and documents
query_embedding = model.encode(query)
document_embeddings = model.encode(documents)

# Calculate cosine similarity between query and documents
similarities = np.dot(document_embeddings, query_embedding)

# Retrieve top-k most relevant documents
top_k = np.argsort(similarities)[-5:]
print("Top 5 documents:", [documents[i] for i in top_k])

2) 重新排名:检索到最相关的文档后,我们使用交叉编码器模型进一步提高这些文档的排名。此步骤会更准确地重新评估与查询相关的每个文档,重点关注更深入的上下文理解。
重新排名是有益的,因为它通过更精确地评​​分每个文档的相关性来增加额外的细化层。

下面是使用 cross-encoder/ms-marco-TinyBERT-L-2-v2(轻量级交叉编码器)进行重新排名的代码示例:

from sentence_transformers import CrossEncoder

# Load the cross-encoder model
cross_encoder = CrossEncoder("cross-encoder/ms-marco-TinyBERT-L-2-v2")

# Use the cross-encoder to rerank top-k retrieved documents
query_document_pairs = [(query, doc) for doc in documents]
scores = cross_encoder.predict(query_document_pairs)

# Rank documents based on the new scores
top_k_reranked = np.argsort(scores)[-5:]
print("Top 5 reranked documents:", [documents[i] for i in top_k_reranked])

识别瓶颈:标记化和预测的成本

在开发过程中,我发现在使用句子转换器的默认设置处理 1,000 个报告时,标记化和预测阶段花费了相当长的时间。这造成了性能瓶颈,特别是因为我们的目标是实时响应。

下面我使用 SnakeViz 分析了我的代码以可视化性能:

Building a Fast and Efficient Semantic Search System Using OpenVINO and Postgres

正如您所看到的,标记化和预测步骤异常缓慢,导致提供搜索结果的严重延迟。总的来说,平均需要 4-5 秒。这是因为标记化和预测步骤之间存在阻塞操作。如果我们还添加其他操作,如数据库调用、过滤等,我们很容易就总共需要 8-9 秒。

使用 OpenVINO 优化性能

我面临的问题是:我们可以让它更快吗?答案是肯定的,通过利用OpenVINO,一个针对 CPU 推理的优化后端。 OpenVINO 有助于加速英特尔硬件上的深度学习模型推理,我们在 AWS Lambda 上使用该硬件。

OpenVINO 优化的代码示例
以下是我如何将 OpenVINO 集成到搜索系统中以加快推理速度:

import argparse
import numpy as np
import pandas as pd
from typing import Any
from openvino.runtime import Core
from transformers import AutoTokenizer


def load_openvino_model(model_path: str) -> Core:
    core = Core()
    model = core.read_model(model_path   ".xml")
    compiled_model = core.compile_model(model, "CPU")
    return compiled_model


def rerank(
    compiled_model: Core,
    query: str,
    results: list[str],
    tokenizer: AutoTokenizer,
    batch_size: int,
) -> np.ndarray[np.float32, Any]:
    max_length = 512
    all_logits = []

    # Split results into batches
    for i in range(0, len(results), batch_size):
        batch_results = results[i : i   batch_size]
        inputs = tokenizer(
            [(query, item) for item in batch_results],
            padding=True,
            truncation="longest_first",
            max_length=max_length,
            return_tensors="np",
        )

        # Extract input tensors (convert to NumPy arrays)
        input_ids = inputs["input_ids"].astype(np.int32)
        attention_mask = inputs["attention_mask"].astype(np.int32)
        token_type_ids = inputs.get("token_type_ids", np.zeros_like(input_ids)).astype(
            np.int32
        )

        infer_request = compiled_model.create_infer_request()
        output = infer_request.infer(
            {
                "input_ids": input_ids,
                "attention_mask": attention_mask,
                "token_type_ids": token_type_ids,
            }
        )

        logits = output["logits"]
        all_logits.append(logits)

    all_logits = np.concatenate(all_logits, axis=0)
    return all_logits


def fetch_search_data(search_text: str) -> pd.DataFrame:
    # Usually you would fetch the data from a database
    df = pd.read_csv("cnbc_headlines.csv")
    df = df[~df["Headlines"].isnull()]

    texts = df["Headlines"].tolist()

    # Load the model and rerank
    openvino_model = load_openvino_model("cross-encoder-openvino-model/model")
    tokenizer = AutoTokenizer.from_pretrained("cross-encoder/ms-marco-TinyBERT-L-2-v2")
    rerank_scores = rerank(openvino_model, search_text, texts, tokenizer, batch_size=16)

    # Add the rerank scores to the DataFrame and sort by the new scores
    df["rerank_score"] = rerank_scores
    df = df.sort_values(by="rerank_score", ascending=False)

    return df


if __name__ == "__main__":
    parser = argparse.ArgumentParser(
        description="Fetch search results with reranking using OpenVINO"
    )

    parser.add_argument(
        "--search_text",
        type=str,
        required=True,
        help="The search text to use for reranking",
    )

    args = parser.parse_args()

    df = fetch_search_data(args.search_text)
    print(df)

通过这种方法,我们可以获得 2-3 倍的加速,将原来的 4-5 秒减少到 1-2 秒。完整的工作代码位于 Github 上。

速度微调:批量大小和标记化

提高性能的另一个关键因素是优化令牌化流程并调整批量大小令牌长度。通过增加批量大小(batch_size = 16)和减少令牌长度(max_length = 512),我们可以并行化令牌化并减少重复操作的开销。在我们的实验中,我们发现 16 到 64 之间的 batch_size 效果很好,任何更大的值都会降低性能。同样,我们将 max_length 设置为 128,如果报告的平均长度相对较短,则该值是可行的。通过这些更改,我们实现了 8 倍的整体加速,将重新排名时间缩短至 1 秒以下,即使在 CPU 上也是如此。

在实践中,这意味着尝试不同的批量大小和令牌长度,以找到数据速度和准确性之间的适当平衡。通过这样做,我们看到响应时间显着缩短,使得搜索系统即使有 1,000 份报告也可扩展。

结论

通过使用 OpenVINO 并优化标记化和批处理,我们能够构建一个高性能语义搜索系统,满足仅 CPU 设置的实时要求。事实上,我们的整体速度提升了 8 倍。使用句子转换器的检索和使用交叉编码器模型的重新排名相结合,创造了强大的、用户友好的搜索体验。

如果您正在构建响应时间和计算资源受到限制的类似系统,我强烈建议您探索 OpenVINO 和智能批处理以释放更好的性能。

希望您喜欢这篇文章。如果您觉得这篇文章有用,请给我一个赞,以便其他人也可以找到它,并与您的朋友分享。在 Linkedin 上关注我,了解我的最新工作。感谢您的阅读!

版本聲明 本文轉載於:https://dev.to/datitran/building-a-fast-and-efficient-semantic-search-system-using-openvino-and-postgres-fd6?1如有侵犯,請聯絡study_golang@163 .com刪除
最新教學 更多>
  • 前端與後端開發人員
    前端與後端開發人員
    海‧德夫, 在Web開發中,有兩個重要的角色:前端開發和後端開發。這兩個學科對於任何成功的 Web 專案都是必不可少的,但它們具有不同的角色、技能和職責。在本部落格中,我們將探索前端和後端開發的世界,比較它們的特點、所需的技能和挑戰。因此,無論您是經驗豐富的開發人員還是新手,請準備好探索前端與後端開...
    程式設計 發佈於2024-11-08
  • Pulsy 自述文件已更新
    Pulsy 自述文件已更新
    Pulsy - React 的轻量级状态管理库 Pulsy 是一个轻量级、灵活且易于使用的 React 状态管理库,提供持久性、中间件、记忆、计算和组合存储、时间旅行和 DevTools 集成等功能。它可以帮助您有效地管理 React 应用程序中的全局状态,而无需不必要的复杂性。 ...
    程式設計 發佈於2024-11-08
  • 從命令列運行時,如何解決 Maven 中的「NoClassDefFoundError」問題?
    從命令列運行時,如何解決 Maven 中的「NoClassDefFoundError」問題?
    透過Shade 外掛程式解決NoClassDefFoundError 的依賴關係第一次使用Maven 時,Eclipse 和命令列使用之間可能會出現不一致,原因是依賴管理。儘管在 Eclipse 中成功建立了 Maven 專案並新增了依賴項,但透過命令列執行專案可能會導致 NoClassDefFou...
    程式設計 發佈於2024-11-08
  • 如何在 Mac 上的 XAMPP 中安裝 PHP 的國際擴充?
    如何在 Mac 上的 XAMPP 中安裝 PHP 的國際擴充?
    Mac OS 上XAMPP 的PHP-intl 安裝若要解決在Mac 上使用XAMPP 時在php 中安裝intl 擴充功能的問題,請依照下列步驟操作: 確認PHP路徑:執行哪個php來決定使用的PHP路徑。對於 XAMPP,它應該是 /Applications/XAMPP/xamppfiles/b...
    程式設計 發佈於2024-11-08
  • 如何在 Python 中刪除清單元素的尾隨字元?
    如何在 Python 中刪除清單元素的尾隨字元?
    拆分​​清單元素在程式設計中,經常需要將清單元素拆分為多個元件。常見的情況涉及刪除尾隨字元。假設您有一個字串列表,其中每個元素都包含一個製表符 ('\t'),後面跟著其他文字。目標是消除此選項卡及其後面的所有內容,僅保留選項卡之前的文字。 考慮以下列表:my_list = ['ele...
    程式設計 發佈於2024-11-08
  • 以下是根據您的具體要求為您的文章提供的一些標題選項:

* 為什麼我的程式碼不起作用?理解 C++ 中的函數作用域
* C++ 中的函式作用域:為什麼我的 HelloWorld() F
    以下是根據您的具體要求為您的文章提供的一些標題選項: * 為什麼我的程式碼不起作用?理解 C++ 中的函數作用域 * C++ 中的函式作用域:為什麼我的 HelloWorld() F
    C 中函數宣告的範圍在您的程式碼中,您收到編譯錯誤,因為HelloWorld() 函式未在與調用它的範圍相同。讓我們深入研究函數作用域的概念並解決這個問題。 函數原型,也稱為聲明,在不提供函數定義的情況下告知編譯器函數的存在。在給定的程式碼中,您嘗試呼叫 HelloWorld(),而不是先在目前作用...
    程式設計 發佈於2024-11-08
  • 深入研究 Monty Hall 問題項目:模擬和理解機率概念
    深入研究 Monty Hall 問題項目:模擬和理解機率概念
    歡迎來到 Monty Hall 問題模擬計畫的迷人世界!這種實踐學習經驗將指導您創建基於網路的模擬,該模擬基於流行的遊戲節目場景演示有趣的機率謎題。 揭開蒙蒂霍爾問題之謎 蒙蒂·霍爾問題是一個著名的機率難題,幾十年來一直讓人們感到困惑和著迷。透過參與這個項目,您不僅有機會實現模擬,...
    程式設計 發佈於2024-11-08
  • 如何在 PHP 中驗證 MySQL DELETE 查詢是否成功?
    如何在 PHP 中驗證 MySQL DELETE 查詢是否成功?
    驗證 MySQL DELETE 查詢是否成功執行 DELETE 操作時,確定其成功執行至關重要。在 PHP 中,您可以採用各種方法來確定 DELETE 查詢是否成功。 MySQLi 和PDO使用MySQLi 或PDO、mysql_query() 和PDO::成功刪除查詢後,exec() 傳回不同的值...
    程式設計 發佈於2024-11-08
  • 何時應在 Python 中使用多個 if 與 If-elif 語句以獲得最佳效能?
    何時應在 Python 中使用多個 if 與 If-elif 語句以獲得最佳效能?
    Python 中的多個If 與Elif 語句在Python 中,在評估條件語句時,可以使用多個if 語句或單一if -elif 聲明。雖然兩種方法可以實現相同的結果,但存在一些可能影響程式碼效率的關鍵差異。 在您提出的場景中:if text == 'sometext': print(text...
    程式設計 發佈於2024-11-08
  • 如何在 Node.js 中提前退出 forEach 迴圈?
    如何在 Node.js 中提前退出 forEach 迴圈?
    如何中斷Node.js forEach 循環在需要遞歸遍歷嵌套資料結構並對每個元素執行操作的情況下,您可以使用遞歸和forEach的組合。但是,在某些情況下,您可能需要提前退出 forEach 迴圈。 與 break 或 continue 語句的常規迴圈不同,forEach 缺乏停止迭代的內建機制。...
    程式設計 發佈於2024-11-08
  • Day f Brylnt:Next.js 與 Remix
    Day f Brylnt:Next.js 與 Remix
    大家好!我知道這與Brylnt 的製作並不直接相關,但在決定使用哪個框架時我遇到了一些問題,我想我應該分享我對兩個流行競爭者的想法:Next.js和混音. 這兩個框架都很優秀,根據專案的不同,任何一個都可能是正確的選擇。由於我使用的是 T3 Stack,其中包括 Next.js,我自然傾向於它,但我...
    程式設計 發佈於2024-11-08
  • 學習 CSS 網格:包含大量範例的簡單指南
    學習 CSS 網格:包含大量範例的簡單指南
    Hey there! If you've ever felt like CSS Grid is a bit like trying to solve a Rubik's Cube blindfolded, you're not alone. I'm Eleftheria, and today, I'...
    程式設計 發佈於2024-11-08
  • 如何在 JavaScript 中強制刷新網頁並繞過快取?
    如何在 JavaScript 中強制刷新網頁並繞過快取?
    使用 JavaScript 硬刷新目前頁面強制 Web 瀏覽器透過 JavaScript 硬刷新頁面可確保取得頁面的全新副本並更新其所有外部資源。 為了實現這一點,JavaScript 提供了一個名為 location.reload(true) 的方法。當傳遞 true 值時,此方法指示瀏覽器繞過其...
    程式設計 發佈於2024-11-08
  • 什麼是 PATH_INFO 以及它如何增強 PHP Web 應用程式?
    什麼是 PATH_INFO 以及它如何增強 PHP Web 應用程式?
    深入研究PATH_INFO:揭示其在PHP Web 應用程式中的作用在Web 開發領域,PHP 是一個強大的工具,用於建立動態和互動式應用程式。它的全部功能之一是名為 PATH_INFO 的神秘變數。儘管經常被提及,但許多人仍然難以理解其確切作用。本文深入研究 PATH_INFO,闡明其目的、實用程...
    程式設計 發佈於2024-11-08
  • 如何使用 Connector .NET 檢索 MySQL 中的最後一個插入 ID?
    如何使用 Connector .NET 檢索 MySQL 中的最後一個插入 ID?
    使用Connector .NET 在MySql 中檢索最後一個插入ID在MySql 中,最後一個插入ID 是指分配給新插入的標識符排。該值在某些情況下可能很有價值,例如填充外鍵關係。 最初,假設 MySqlHelper 類別的 ExecuteNonQuery 方法傳回最後一個插入 ID。然而,這個假...
    程式設計 發佈於2024-11-08

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3