AI를 사용하여 구조적 출력을 위한 가장 빠르고 정확한 송장 데이터 추출기를 만듭니다.

첫 장 > 프로그램 작성 > AI를 사용하여 구조적 출력을 위한 가장 빠르고 정확한 송장 데이터 추출기를 만듭니다.

AI를 사용하여 구조적 출력을 위한 가장 빠르고 정확한 송장 데이터 추출기를 만듭니다.

2024-11-01에 게시됨

검색:110

Create the fastest and precise invoice data extractor for structural output using AI

매장 영수증 추출을 위해 Pydantic 모델과 함께 LlamaExtract 사용

이 기사에서는 상점 영수증에서 구조화된 데이터를 추출하기 위해 Pydantic 모델의 스키마와 통합된 LlamaExtract를 사용하는 방법을 살펴보겠습니다. 이러한 접근 방식은 영수증 정보를 체계적으로 정리하는 데 도움이 되며 분석 및 관리가 더 쉬워집니다.

설정

먼저 라마 추출 클라이언트 라이브러리가 설치되어 있는지 확인하세요. 다음 명령을 사용하십시오:

pip install llama-extract pydantic

참고: pip 업데이트에 대한 알림이 표시되면 제공된 명령을 사용하여 업데이트할 수 있습니다.

먼저 로그인하고 Llama Index Cloud에서 무료로 API 키를 받으세요.

LlamaExtract API 키에 대한 환경 변수를 설정합니다.

import os

os.environ["LLAMA_CLOUD_API_KEY"] = "YOUR LLAMA INDEX CLOUD API HERE"

데이터 로드

이 예에서는 PDF 형식의 매장 영수증 데이터세트가 있다고 가정해 보겠습니다. 이러한 파일을 영수증이라는 디렉터리에 넣습니다.

DATA_DIR = "data/receipts"
fnames = os.listdir(DATA_DIR)
fnames = [fname for fname in fnames if fname.endswith(".pdf")]
fpaths = [os.path.join(DATA_DIR, fname) for fname in fnames]
fpaths

출력에는 영수증의 파일 경로가 나열되어야 합니다.

['data/receipts/receipt.pdf']

Pydantic 모델 정의

우리는 Pydantic을 사용하여 데이터 모델을 정의할 것입니다. 이는 우리가 예상하거나 PDF에서 추출하려는 필드/데이터를 API에 알려줍니다. 매장 영수증의 경우 매장 이름, 날짜, 총액, 구매한 품목 목록을 추출하는 데 관심이 있을 수 있습니다.

from pydantic import BaseModel
from typing import List

class Item(BaseModel):
    name: str
    quantity: int
    price: float

class Receipt(BaseModel):
    store_name: str
    date: str
    total_amount: float
    items: List[Item]

스키마 생성

이제 Pydantic 모델을 사용하여 LlamaExtract에서 추출 스키마를 정의할 수 있습니다.

from llama_extract import LlamaExtract

extractor = LlamaExtract(verbose=True)
schema_response = await extractor.acreate_schema("Receipt Schema", data_schema=Receipt)
schema_response.data_schema

출력 스키마는 다음과 유사해야 합니다.

{
    'type': 'object',
    '$defs': {
        'Item': {
            'type': 'object',
            'title': 'Item',
            'required': ['name', 'quantity', 'price'],
            'properties': {
                'name': {'type': 'string', 'title': 'Name'},
                'quantity': {'type': 'integer', 'title': 'Quantity'},
                'price': {'type': 'number', 'title': 'Price'}
            }
        }
    },
    'title': 'Receipt',
    'required': ['store_name', 'date', 'total_amount', 'items'],
    'properties': {
        'store_name': {'type': 'string', 'title': 'Store Name'},
        'date': {'type': 'string', 'title': 'Date'},
        'total_amount': {'type': 'number', 'title': 'Total Amount'},
        'items': {
            'type': 'array',
            'title': 'Items',
            'items': {'$ref': '#/$defs/Item'}
        }
    }
}

추출 실행

스키마가 정의되면 이제 영수증 파일에서 구조화된 데이터를 추출할 수 있습니다. Receipt를 응답 모델로 지정하여 추출된 데이터가 검증되고 구조화되었는지 확인합니다.

responses = await extractor.aextract(
    schema_response.id, fpaths, response_model=Receipt
)

필요한 경우 원시 JSON 출력에 액세스할 수 있습니다.

data = responses[0].data
print(data)

JSON 출력 예:

{
    'store_name': 'ABC Electronics',
    'date': '2024-08-05',
    'total_amount': 123.45,
    'items': [
        {'name': 'Laptop', 'quantity': 1, 'price': 999.99},
        {'name': 'Mouse', 'quantity': 1, 'price': 25.00},
        {'name': 'Keyboard', 'quantity': 1, 'price': 50.00}
    ]
}

결론

이 기사에서는 데이터 스키마를 정의하고 상점 영수증에서 구조화된 데이터를 추출하기 위해 Pydantic 모델과 함께 LlamaExtract를 사용하는 방법을 시연했습니다. 이 접근 방식을 사용하면 추출된 정보가 잘 정리되고 검증되므로 처리 및 분석이 더 쉬워집니다.

이는 다양한 사례, 송장, 영수증, 보고서 등에 사용할 수도 있습니다.

즐거운 코딩하세요!!

프로젝트가 있나요? 저에게 이메일을 보내주세요. [email protected]

질문이 있거나 내 게시물에 대해 가장 먼저 알고 싶으세요.-
LinkedIn에서 나를 ✅ 팔로우하세요 ?
Twitter/X에서 나를 ✅ 팔로우하세요 ?

릴리스 선언문 이 글은 https://dev.to/wmisingo/create-the-fastest-and-precise-invoice-data-extractor-for-structural-output-using-ai-pe1?1 에서 재현됩니다. 침해가 있는 경우 , [email protected]로 문의해주세요.

최신 튜토리얼 더>

PHP의 `mail()` 함수에서 봉투 반환 주소를 어떻게 무시할 수 있나요?
PHP 메일에서 봉투 반송 주소를 재정의하는 방법PHP의 mail() 함수를 사용하여 봉투 반송 주소를 설정하는 문제를 해결하려면, 이 답변은 간단한 솔루션을 제공합니다.mail() 함수는 선택적인 네 번째 및 다섯 번째 매개변수를 허용합니다. 네 번째 매개변수는 헤더...

프로그램 작성 2024-11-07에 게시됨
기술 시계 #1
안녕하세요 여러분, 지난 주에 제가 본 기술 시계는 많은 #react, 약간의 #html, 약간의 #css, #npm이 포함되어 있습니다. ? https://www.totaltypescript.com/how-to-create-an-npm-package NPM 패키지를 ...

프로그램 작성 2024-11-07에 게시됨
mysqli_fetch_array()는 언제 "매개변수 1이 mysqli_result, boolean이 주어질 것으로 예상합니다"라는 오류를 표시합니까?
mysqli_fetch_array()는 부울이 아닌 MySQLi 결과를 기대합니다.주어진 PHP 코드에서 "mysqli_fetch_array()는 매개변수 1이 다음과 같을 것으로 예상합니다. mysqli_result, boolean done"은 my...

프로그램 작성 2024-11-07에 게시됨
부분합 문제에 대한 PHP 프로그램
부분 집합 합 문제는 컴퓨터 과학 및 동적 프로그래밍의 고전적인 문제입니다. 양의 정수 집합과 목표 합계가 주어지면, 작업은 해당 요소의 합이 목표 합계에 해당하는 주어진 집합의 하위 집합이 존재하는지 여부를 결정하는 것입니다. 부분합 문제에 대한 PHP 프로그램 재귀...

프로그램 작성 2024-11-07에 게시됨
JavaScript 배열 메서드: 종합 가이드
배열은 JavaScript의 가장 기본적인 데이터 구조 중 하나입니다. 배열을 사용하면 단일 변수에 여러 값을 저장할 수 있습니다. JavaScript는 배열을 조작할 수 있는 다양한 내장 메소드를 제공하므로 배열을 놀라울 정도로 다재다능하게 만듭니다. 이 게시물에서는...

프로그램 작성 2024-11-07에 게시됨
고급 Ts: 종속 매개변수, 추론된 결합 및 Twitter에서의 건전한 상호 작용.
TypeScript에서 Foo로 글을 쓸 때마다 패배의 무게를 느낍니다. 이런 느낌이 특히 강렬한 시나리오가 하나 있습니다. 함수가 활성화된 "모드"에 따라 달라지는 매개변수를 취하는 경우입니다. 몇 가지 예제 코드로 더욱 명확해졌습니...

프로그램 작성 2024-11-07에 게시됨
HR 관리 솔루션을 만드는 방법
1. Understanding the Basics of Frappe and ERPNext Task 1: Install Frappe and ERPNext Goal: Get a local or cloud-based instance of ERP...

프로그램 작성 2024-11-07에 게시됨
금요일 해킹부터 출시까지: 오픈 소스 프로젝트 생성 및 출시에 대한 고찰
금요일 패치 해킹부터 출시까지: 오픈소스 프로젝트 생성 및 출시에 대한 고찰 초보 및 중급 개발자를 대상으로 한 시리즈의 일부로, 자신의 아이디어를 오픈 소스 프로젝트로 공개하거나 관심을 갖고 있습니다. 이러한 반성은 편향적이고 개인적입니다. 더 많은 ...

프로그램 작성 2024-11-07에 게시됨
constexpr을 사용하여 컴파일 타임에 문자열 길이를 결정할 수 있습니까?
상수 표현식 최적화: 컴파일 타임에 문자열 길이를 결정할 수 있습니까?코드 최적화 과정에서 개발자는 재귀 함수를 사용하여 컴파일 타임에 문자열 리터럴의 길이. 이 함수는 문자열 문자를 문자별로 평가하고 길이를 반환합니다.초기 관찰:이 함수는 의도한 대로 작동하는 것으로...

프로그램 작성 2024-11-07에 게시됨
Raspberry Pi에서 Discord Bot 실행하기
Unsplash의 Daniel Tafjord 표지 사진 최근에 소프트웨어 엔지니어링 부트캠프를 마치고 LeetCode의 쉬운 질문 작업을 시작했으며, 질문 해결을 위해 매일 알림을 받으면 책임감을 갖는 데 도움이 될 것이라고 느꼈습니다. 나는 다음을 수행하는 24시간 ...

프로그램 작성 2024-11-07에 게시됨
JavaScript의 숨겨진 보석 잠금 해제: 활용률이 낮은 기능으로 코드 품질 및 성능 향상
In the ever-evolving landscape of web development, JavaScript remains a cornerstone technology powering countless large-scale web applications. While...

프로그램 작성 2024-11-07에 게시됨
Const가 아닌 포인터를 통해 `const` 변수를 수정하는 것이 작동하는 것처럼 보이지만 실제로는 값이 변경되지 않는 이유는 무엇입니까?
비상수 포인터를 통해 const 수정C에서는 일단 초기화되면 const 변수를 수정할 수 없습니다. 그러나 특정 시나리오에서는 const 변수가 변경된 것처럼 보일 수 있습니다. 다음 코드를 고려해보세요:const int e = 2; int* w = (int*)&...

프로그램 작성 2024-11-07에 게시됨
Android - Play 스토어에 .aab 파일을 업로드하는 중 오류가 발생했습니다.
이 오류가 발생하면 다음 단계에 따라 패키지 이름 및 서명 키와의 일관성을 확인하세요. app.json 파일의 패키지 이름이 .aab 파일을 처음 업로드할 때 사용한 이름과 일치하는지 확인하세요. "android": { "permissions":["CAM...

프로그램 작성 2024-11-07에 게시됨
PHP를 사용하여 HTML을 PDF로 변환하는 방법
(Windows용 가이드. Mac 또는 Linux 제외) (이미지 출처) PHP에서 HTML을 PDF로 변환하는 방법은 여러 가지가 있습니다. Dompdf 또는 Mpdf를 사용할 수 있습니다. 그러나 이 두 라이브러리가 이를 수행하는 방식에는 차이가 있습니다. 참고: ...

프로그램 작성 2024-11-07에 게시됨
C++가 가비지 컬렉션을 수용하게 될까요?
C의 가비지 수집: 구현과 합의의 문제C가 결국 가비지 수집기를 통합할 것이라는 제안이 있었지만, 여전히 논쟁과 지속적인 개발의 주제로 남아 있습니다. 이유를 이해하려면 지금까지 포함을 방해한 문제와 고려 사항을 조사해야 합니다.구현 복잡성C에 암시적 가비지 수집을 추...

프로그램 작성 2024-11-07에 게시됨