」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 使用 AI 創建最快且精確的發票資料提取器以進行結構輸出

使用 AI 創建最快且精確的發票資料提取器以進行結構輸出

發佈於2024-11-01
瀏覽:269

Create the fastest and precise invoice data extractor for structural output using AI

使用 LlamaExtract 和 Pydantic 模型提取商店收據

在本文中,我們將探索如何使用 LlamaExtract 與 Pydantic 模型中的模式結合,以便從商店收據中提取結構化資料。這種方法有助於系統地組織收據訊息,使其更易於分析和管理。

設定

首先,請確保您安裝了 llama-extract 用戶端程式庫。使用以下命令:

pip install llama-extract pydantic

注意:如果您看到有關更新 pip 的通知,您可以使用提供的命令進行更新。

首先,登入並從 Llama Index Cloud 免費取得 api-key

為您的 LlamaExtract API 金鑰設定環境變數:

import os

os.environ["LLAMA_CLOUD_API_KEY"] = "YOUR LLAMA INDEX CLOUD API HERE"

載入數據

對於此範例,假設我們有一個 PDF 格式的商店收據資料集。將這些檔案放在名為receipts 的目錄中。

DATA_DIR = "data/receipts"
fnames = os.listdir(DATA_DIR)
fnames = [fname for fname in fnames if fname.endswith(".pdf")]
fpaths = [os.path.join(DATA_DIR, fname) for fname in fnames]
fpaths

輸出應列出收據的文件路徑:

['data/receipts/receipt.pdf']

定義 Pydantic 模型

我們將使用 Pydantic 定義我們的資料模型,這將告訴 API 我們期望或想要從 PDF 提取哪些欄位/資料。對於商店收據,我們可能有興趣提取商店名稱、日期、總金額和購買的商品清單。

from pydantic import BaseModel
from typing import List

class Item(BaseModel):
    name: str
    quantity: int
    price: float

class Receipt(BaseModel):
    store_name: str
    date: str
    total_amount: float
    items: List[Item]

創建架構

現在,我們可以使用 Pydantic 模型在 LlamaExtract 中定義擷取模式。

from llama_extract import LlamaExtract

extractor = LlamaExtract(verbose=True)
schema_response = await extractor.acreate_schema("Receipt Schema", data_schema=Receipt)
schema_response.data_schema

輸出架構應類似下列內容:

{
    'type': 'object',
    '$defs': {
        'Item': {
            'type': 'object',
            'title': 'Item',
            'required': ['name', 'quantity', 'price'],
            'properties': {
                'name': {'type': 'string', 'title': 'Name'},
                'quantity': {'type': 'integer', 'title': 'Quantity'},
                'price': {'type': 'number', 'title': 'Price'}
            }
        }
    },
    'title': 'Receipt',
    'required': ['store_name', 'date', 'total_amount', 'items'],
    'properties': {
        'store_name': {'type': 'string', 'title': 'Store Name'},
        'date': {'type': 'string', 'title': 'Date'},
        'total_amount': {'type': 'number', 'title': 'Total Amount'},
        'items': {
            'type': 'array',
            'title': 'Items',
            'items': {'$ref': '#/$defs/Item'}
        }
    }
}

運行提取

定義了架構後,我們現在可以從收據文件中提取結構化資料。透過指定收據作為回應模型,我們確保提取的資料經過驗證和結構化。

responses = await extractor.aextract(
    schema_response.id, fpaths, response_model=Receipt
)

如果需要,您可以存取原始 JSON 輸出:

data = responses[0].data
print(data)

JSON 輸出範例:

{
    'store_name': 'ABC Electronics',
    'date': '2024-08-05',
    'total_amount': 123.45,
    'items': [
        {'name': 'Laptop', 'quantity': 1, 'price': 999.99},
        {'name': 'Mouse', 'quantity': 1, 'price': 25.00},
        {'name': 'Keyboard', 'quantity': 1, 'price': 50.00}
    ]
}

結論

在本文中,我們示範如何將 LlamaExtract 與 Pydantic 模型結合使用來定義資料模式並從商店收據中提取結構化資料。這種方法可確保提取的資訊組織良好且經過驗證,從而更易於處理和分析。

這也可用於許多案例、發票、收據、報告等。

快樂編碼! !

你有專案嗎?您希望我協助您寄電子郵件給我嗎? : [email protected]

有疑問或想成為第一個了解我的貼文的人:-
在 LinkedIn 上關注 ✅ 我?
在 Twitter/X 上關注 ✅ 我?

版本聲明 本文轉載於:https://dev.to/wmisingo/create-the-fastest-and-precise-invoice-data-extractor-for-structural-output-using-ai-pe1?1如有侵犯,請聯絡study_golang @163.com刪除
最新教學 更多>
  • 如何解決 Alpine 容器 Go 中 Pingdom API 的 x509 憑證問題?
    如何解決 Alpine 容器 Go 中 Pingdom API 的 x509 憑證問題?
    x509 Go 中Pingdom API 的憑證問題在利用pingdom-go 套件與Pingdom API 互動時,容器化應用程式遇到以下問題錯誤:「取得https://api.pingdom.com/api/2.1/checks/0:x509:由未知頒發機構簽署的憑證。 要解決此問題,我們可以探...
    程式設計 發佈於2024-11-07
  • 前端 UI 元件
    前端 UI 元件
    iHateReading 自訂儲存庫 在過去的一個月裡,我製作了許多 UI 元件,這些元件是真實世界的 Web 元件,例如按鈕、輸入、表單、橫幅、圖庫 為多種目的而製造的組件 學習前端並在我所做的事情上變得更好 提高前端開發中編寫更好程式碼的能力(稍後我會解釋這意味著什麼) 我目前...
    程式設計 發佈於2024-11-07
  • 我可以僅使用 .frm 檔案還原 MySQL 資料庫嗎?
    我可以僅使用 .frm 檔案還原 MySQL 資料庫嗎?
    使用 .frm 檔案還原 MySQL 資料庫執行常規資料庫備份時,擷取整個資料庫結構和資料至關重要。數據。但是,在某些情況下,使用者可能只能存取 .frm 文件,該文件代表表結構,而不是實際資料。在這種情況下,僅使用 .frm 檔案還原資料庫及其資料可能具有挑戰性。 幸運的是,在某些情況下可以從 ....
    程式設計 發佈於2024-11-07
  • 在 PHP 中啟用或停用「allow_url_fopen」:評估風險和替代方案
    在 PHP 中啟用或停用「allow_url_fopen」:評估風險和替代方案
    授予或不授予:探索PHP 中'allow_url_fopen' 的用法開發者經常請求激活'allow_url_fopen' 功能在生產伺服器上。鑑於目前的網頁開發狀況,確定此權限是否仍然是必要的或是否有更好的替代方案至關重要。 評估情況在做出決定之前,請考慮以下事項:...
    程式設計 發佈於2024-11-07
  • 如何覆蓋 PHP 的 `mail()` 函數中的信封回傳地址?
    如何覆蓋 PHP 的 `mail()` 函數中的信封回傳地址?
    如何在PHP Mail 中覆蓋信封回傳地址為了解決使用PHP 的mail() 函數設定信封回傳地址的問題,這個答案提供了一個簡單的解決方案。 mail() 函數接受可選的第四個和第五個參數。雖然第四個參數用於設定標頭,但第五個參數可用於將選項直接傳遞給底層的 sendmail 命令。透過在第五個參數...
    程式設計 發佈於2024-11-07
  • 科技觀察 #1
    科技觀察 #1
    大家好,這是我上週的技術手錶,其中包含很多 #react、一點 #html、一些 #css 和 #npm。 ? https://www.totaltypescript.com/how-to-create-an-npm-package 如何建立 NPM 套件 建立、測試和發布 NPM 套件(從初始化...
    程式設計 發佈於2024-11-07
  • mysqli_fetch_array() 何時顯示錯誤「期望參數 1 為 mysqli_result,給定布林值」?
    mysqli_fetch_array() 何時顯示錯誤「期望參數 1 為 mysqli_result,給定布林值」?
    mysqli_fetch_array() 期望MySQLi 結果,而不是布林值在給定的PHP 程式碼中,錯誤「mysqli_fetch_array() 期望參數1 為mysqli_result, boolean Give" 表示使用mysqli_query() 的查詢執行失敗,傳回fals...
    程式設計 發佈於2024-11-07
  • 子集和問題的 PHP 程式
    子集和問題的 PHP 程式
    子集和問題是電腦科學和動態規劃中的經典問題。給定一組正整數和一個目標和,任務是確定是否存在給定集合的子集,其元素總和等於目標和。 子集與問題的PHP程序 使用遞歸解決方案 例子 <?php // A recursive solution for the subset sum problem /...
    程式設計 發佈於2024-11-07
  • JavaScript 陣列方法:綜合指南
    JavaScript 陣列方法:綜合指南
    数组是 JavaScript 中最基本的数据结构之一。使用数组,您可以在单个变量中存储多个值。 JavaScript 提供了许多内置方法来操作数组,使它们具有令人难以置信的通用性。在这篇文章中,我们将探讨所有内置数组方法以及如何在 JavaScript 项目中有效地使用它们。 核心方...
    程式設計 發佈於2024-11-07
  • 進階 T:依賴參數、推斷聯合以及 Twitter 上的健康互動。
    進階 T:依賴參數、推斷聯合以及 Twitter 上的健康互動。
    每次我用 TypeScript 写成 Foo 时,我都会感受到失败的沉重。 在一种情况下,这种感觉特别强烈:当函数采用的参数取决于哪个 "mode" 处于活动状态时。 通过一些示例代码更清晰: type Provider = "PROVIDER A" | "PR...
    程式設計 發佈於2024-11-07
  • 如何建立人力資源管理解決方案
    如何建立人力資源管理解決方案
    1. Understanding the Basics of Frappe and ERPNext Task 1: Install Frappe and ERPNext Goal: Get a local or cloud-based instance of ERP...
    程式設計 發佈於2024-11-07
  • 從週五黑客到發布:對創建和發布開源專案的思考
    從週五黑客到發布:對創建和發布開源專案的思考
    从周五补丁破解到发布:对创建和发布开源项目的思考 这是针对初学者和中级开发人员的系列的一部分,通过将他们的想法作为开源项目发布或引起兴趣。 这些想法是有偏见的和个人的。计划发布更多文章。通过分享一些思考,我希望能启发你做自己的项目 思考(此) 作为 Java 开发人员学习 Go l...
    程式設計 發佈於2024-11-07
  • 可以使用 constexpr 在編譯時確定字串長度嗎?
    可以使用 constexpr 在編譯時確定字串長度嗎?
    常數表達式最佳化:可以在編譯時確定字串長度嗎? 在最佳化程式碼的過程中,開發人員嘗試計算使用遞​​歸函數在編譯時計算字串文字的長度。此函數逐字元計算字串並傳回長度。 初步觀察:該函數似乎按預期工作,在運行時返回正確的長度並產生表明計算發生在編譯時的彙編程式碼。這就提出了一個問題:是否保證length...
    程式設計 發佈於2024-11-07
  • 在 Raspberry Pi 上執行 Discord 機器人
    在 Raspberry Pi 上執行 Discord 機器人
    Unsplash 上 Daniel Tafjord 的封面照片 我最近完成了一个软件工程训练营,开始研究 LeetCode 的简单问题,并觉得如果我每天都有解决问题的提醒,这将有助于让我负起责任。我决定使用按 24 小时计划运行的不和谐机器人(当然是在我值得信赖的树莓派上)来实现此操作,该机器人将执...
    程式設計 發佈於2024-11-07
  • 解鎖 JavaScript 的隱藏寶石:未充分利用的功能可提高程式碼品質和效能
    解鎖 JavaScript 的隱藏寶石:未充分利用的功能可提高程式碼品質和效能
    In the ever-evolving landscape of web development, JavaScript remains a cornerstone technology powering countless large-scale web applications. While...
    程式設計 發佈於2024-11-07

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3