「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > AI のチャンク化 - あなたに欠けている秘密のソース

AI のチャンク化 - あなたに欠けている秘密のソース

2024 年 11 月 8 日に公開
ブラウズ:853

Chunking in AI - The Secret Sauce You

皆さん! ?

何が私を夜眠れなくさせるのか知っていますか? AI システムをよりスマートかつ効率的にする方法を考えています。今日は、基本的なように聞こえるかもしれませんが、強力な AI アプリケーションを構築する際に重要なこと、チャンキング ✨.

について話したいと思います。

そもそもチャンク化とは一体何なのでしょうか? ?

チャンクとは、大量の情報を管理しやすい一口サイズの部分に分割する AI の方法であると考えてください。ピザ全体を一度に口の中に詰め込もうとしないのと同じように (あるいはそうするかも知れませんが、判断は不要です!)、AI は大きなテキストを効果的に処理するために小さな部分に分割する必要があります。

これは、いわゆる RAG (Retrieval-Augmented Generation) モデルにとって特に重要です。これらの悪い奴らはただでっち上げているだけではなく、実際に外部ソースから本物の情報を入手しに行きます。かなり素敵ですね?

なぜ気にする必要があるのでしょうか? ?

ほら、テキストを扱うものを構築している場合、それがカスタマー サポート チャットボットであれ、高度なナレッジ ベース検索であれ、適切にチャンク化するかどうかが、的確な回答を提供する AI と単なる AI の違いです。 .まあ

チャンクが大きすぎますか?あなたのモデルは要点を外しています。
塊が小さすぎますか?細かいことは忘れてしまいます。

手を汚しましょう: 実際の例 ?

Python の例: セマンティック チャンク化

まず、セマンティック チャンキングに LangChain を使用する Python の例を見てみましょう:

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import TextLoader

def semantic_chunk(file_path):
    # Load the document
    loader = TextLoader(file_path)
    document = loader.load()

    # Create a text splitter
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len,
        separators=["\n\n", "\n", " ", ""]
    )

    # Split the document into chunks
    chunks = text_splitter.split_documents(document)

    return chunks

# Example usage
chunks = semantic_chunk('knowledge_base.txt')
for i, chunk in enumerate(chunks):
    print(f"Chunk {i}: {chunk.page_content[:50]}...")

Node.js と CDK の例: ナレッジ ベースの構築

さて、AWS CDK と Node.js を使用したサーバーレスのナレッジベースという、実際のものを構築しましょう。 ?

まず、CDK インフラストラクチャ (ここで魔法が起こります):

import * as cdk from 'aws-cdk-lib';
import * as s3 from 'aws-cdk-lib/aws-s3';
import * as lambda from 'aws-cdk-lib/aws-lambda';
import * as opensearch from 'aws-cdk-lib/aws-opensearch';
import * as iam from 'aws-cdk-lib/aws-iam';

export class KnowledgeBaseStack extends cdk.Stack {
  constructor(scope: cdk.App, id: string, props?: cdk.StackProps) {
    super(scope, id, props);

    // S3 bucket to store our documents
    const documentBucket = new s3.Bucket(this, 'DocumentBucket', {
      removalPolicy: cdk.RemovalPolicy.DESTROY,
    });

    // OpenSearch domain for storing our chunks
    const openSearchDomain = new opensearch.Domain(this, 'DocumentSearch', {
      version: opensearch.EngineVersion.OPENSEARCH_2_5,
      capacity: {
        dataNodes: 1,
        dataNodeInstanceType: 't3.small.search',
      },
      ebs: {
        volumeSize: 10,
      },
    });

    // Lambda function for processing documents
    const processorFunction = new lambda.Function(this, 'ProcessorFunction', {
      runtime: lambda.Runtime.NODEJS_18_X,
      handler: 'index.handler',
      code: lambda.Code.fromAsset('lambda'),
      environment: {
        OPENSEARCH_DOMAIN: openSearchDomain.domainEndpoint,
      },
      timeout: cdk.Duration.minutes(5),
    });

    // Grant permissions
    documentBucket.grantRead(processorFunction);
    openSearchDomain.grantWrite(processorFunction);
  }
}

そして、チャンク化とインデックス作成を行う Lambda 関数:

import { S3Event } from 'aws-lambda';
import { S3 } from 'aws-sdk';
import { Client } from '@opensearch-project/opensearch';
import { defaultProvider } from '@aws-sdk/credential-provider-node';
import { AwsSigv4Signer } from '@opensearch-project/opensearch/aws';

const s3 = new S3();
const CHUNK_SIZE = 1000;
const CHUNK_OVERLAP = 200;

// Create OpenSearch client
const client = new Client({
  ...AwsSigv4Signer({
    region: process.env.AWS_REGION,
    service: 'es',
    getCredentials: () => {
      const credentialsProvider = defaultProvider();
      return credentialsProvider();
    },
  }),
  node: `https://${process.env.OPENSEARCH_DOMAIN}`,
});

export const handler = async (event: S3Event) => {
  for (const record of event.Records) {
    const bucket = record.s3.bucket.name;
    const key = decodeURIComponent(record.s3.object.key.replace(/\ /g, ' '));

    // Get the document from S3
    const { Body } = await s3.getObject({ Bucket: bucket, Key: key }).promise();
    const text = Body.toString('utf-8');

    // Chunk the document
    const chunks = chunkText(text);

    // Index chunks in OpenSearch
    for (const [index, chunk] of chunks.entries()) {
      await client.index({
        index: 'knowledge-base',
        body: {
          content: chunk,
          documentKey: key,
          chunkIndex: index,
          timestamp: new Date().toISOString(),
        },
      });
    }
  }
};

function chunkText(text: string): string[] {
  const chunks: string[] = [];
  let start = 0;

  while (start 



すべてはどのように連携して機能するのでしょうか?

  1. ドキュメントのアップロード: ドキュメントを S3 バケットにアップロードすると、Lambda 関数がトリガーされます。
  2. 処理: Lambda関数:
    • S3 からドキュメントを取得します
    • スマートチャンクアルゴリズムを使用してチャンク化します
    • OpenSearch の各チャンクにメタデータをインデックス付けします
  3. 取得: 後でアプリケーションが情報を見つける必要がある場合、OpenSearch にクエリを実行して最も関連性の高いチャンクを見つけることができます。

このナレッジ ベースにクエリを実行する方法の簡単な例を次に示します:

async function queryKnowledgeBase(query: string) {
  const response = await client.search({
    index: 'knowledge-base',
    body: {
      query: {
        multi_match: {
          query: query,
          fields: ['content'],
        },
      },
    },
  });

  return response.body.hits.hits.map(hit => ({
    content: hit._source.content,
    documentKey: hit._source.documentKey,
    score: hit._score,
  }));
}

AWS の利点 ?️

S3、Lambda、OpenSearch などの AWS サービスを使用すると、次のことが得られます:

  • サーバーレスのスケーラビリティ (管理するサーバーが不要!)
  • 従量制料金(お財布に優しい)
  • マネージド サービス (運用作業の軽減 = コーディングの楽しみが増える)

最終的な考え?

これで完成です!サーバーレスナレッジベースにチャンキングを実装する方法の実例。一番いいところは?これは自動的に拡大縮小され、あらゆるサイズのドキュメントを処理できます。

覚えておいてください、適切なチャンク化の鍵は次のとおりです:

  1. ユースケースに適したチャンク サイズを選択してください
  2. コンテキストを維持するために重複を考慮する
  3. 可能な限り自然な境界線を使用します(文や段落など)

ナレッジベースの構築に関するあなたの経験は何ですか?さまざまなチャンク化戦略を試してみましたか?以下のコメント欄でお知らせください。 ?

リリースステートメント この記事は次の場所に転載されています: https://dev.to/aws-builders/chunking-in-ai-the-secret-sauce-youre-missing-5dfa?1 侵害がある場合は、[email protected] までご連絡ください。それを削除するには
最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3