皆さん! ?
何が私を夜眠れなくさせるのか知っていますか? AI システムをよりスマートかつ効率的にする方法を考えています。今日は、基本的なように聞こえるかもしれませんが、強力な AI アプリケーションを構築する際に重要なこと、チャンキング ✨.
について話したいと思います。チャンクとは、大量の情報を管理しやすい一口サイズの部分に分割する AI の方法であると考えてください。ピザ全体を一度に口の中に詰め込もうとしないのと同じように (あるいはそうするかも知れませんが、判断は不要です!)、AI は大きなテキストを効果的に処理するために小さな部分に分割する必要があります。
これは、いわゆる RAG (Retrieval-Augmented Generation) モデルにとって特に重要です。これらの悪い奴らはただでっち上げているだけではなく、実際に外部ソースから本物の情報を入手しに行きます。かなり素敵ですね?
ほら、テキストを扱うものを構築している場合、それがカスタマー サポート チャットボットであれ、高度なナレッジ ベース検索であれ、適切にチャンク化するかどうかが、的確な回答を提供する AI と単なる AI の違いです。 .まあ。
チャンクが大きすぎますか?あなたのモデルは要点を外しています。
塊が小さすぎますか?細かいことは忘れてしまいます。
まず、セマンティック チャンキングに LangChain を使用する Python の例を見てみましょう:
from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.document_loaders import TextLoader def semantic_chunk(file_path): # Load the document loader = TextLoader(file_path) document = loader.load() # Create a text splitter text_splitter = RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=200, length_function=len, separators=["\n\n", "\n", " ", ""] ) # Split the document into chunks chunks = text_splitter.split_documents(document) return chunks # Example usage chunks = semantic_chunk('knowledge_base.txt') for i, chunk in enumerate(chunks): print(f"Chunk {i}: {chunk.page_content[:50]}...")
さて、AWS CDK と Node.js を使用したサーバーレスのナレッジベースという、実際のものを構築しましょう。 ?
まず、CDK インフラストラクチャ (ここで魔法が起こります):
import * as cdk from 'aws-cdk-lib'; import * as s3 from 'aws-cdk-lib/aws-s3'; import * as lambda from 'aws-cdk-lib/aws-lambda'; import * as opensearch from 'aws-cdk-lib/aws-opensearch'; import * as iam from 'aws-cdk-lib/aws-iam'; export class KnowledgeBaseStack extends cdk.Stack { constructor(scope: cdk.App, id: string, props?: cdk.StackProps) { super(scope, id, props); // S3 bucket to store our documents const documentBucket = new s3.Bucket(this, 'DocumentBucket', { removalPolicy: cdk.RemovalPolicy.DESTROY, }); // OpenSearch domain for storing our chunks const openSearchDomain = new opensearch.Domain(this, 'DocumentSearch', { version: opensearch.EngineVersion.OPENSEARCH_2_5, capacity: { dataNodes: 1, dataNodeInstanceType: 't3.small.search', }, ebs: { volumeSize: 10, }, }); // Lambda function for processing documents const processorFunction = new lambda.Function(this, 'ProcessorFunction', { runtime: lambda.Runtime.NODEJS_18_X, handler: 'index.handler', code: lambda.Code.fromAsset('lambda'), environment: { OPENSEARCH_DOMAIN: openSearchDomain.domainEndpoint, }, timeout: cdk.Duration.minutes(5), }); // Grant permissions documentBucket.grantRead(processorFunction); openSearchDomain.grantWrite(processorFunction); } }
そして、チャンク化とインデックス作成を行う Lambda 関数:
import { S3Event } from 'aws-lambda'; import { S3 } from 'aws-sdk'; import { Client } from '@opensearch-project/opensearch'; import { defaultProvider } from '@aws-sdk/credential-provider-node'; import { AwsSigv4Signer } from '@opensearch-project/opensearch/aws'; const s3 = new S3(); const CHUNK_SIZE = 1000; const CHUNK_OVERLAP = 200; // Create OpenSearch client const client = new Client({ ...AwsSigv4Signer({ region: process.env.AWS_REGION, service: 'es', getCredentials: () => { const credentialsProvider = defaultProvider(); return credentialsProvider(); }, }), node: `https://${process.env.OPENSEARCH_DOMAIN}`, }); export const handler = async (event: S3Event) => { for (const record of event.Records) { const bucket = record.s3.bucket.name; const key = decodeURIComponent(record.s3.object.key.replace(/\ /g, ' ')); // Get the document from S3 const { Body } = await s3.getObject({ Bucket: bucket, Key: key }).promise(); const text = Body.toString('utf-8'); // Chunk the document const chunks = chunkText(text); // Index chunks in OpenSearch for (const [index, chunk] of chunks.entries()) { await client.index({ index: 'knowledge-base', body: { content: chunk, documentKey: key, chunkIndex: index, timestamp: new Date().toISOString(), }, }); } } }; function chunkText(text: string): string[] { const chunks: string[] = []; let start = 0; while (startすべてはどのように連携して機能するのでしょうか?
- ドキュメントのアップロード: ドキュメントを S3 バケットにアップロードすると、Lambda 関数がトリガーされます。
- 処理: Lambda関数:
- S3 からドキュメントを取得します
- スマートチャンクアルゴリズムを使用してチャンク化します
- OpenSearch の各チャンクにメタデータをインデックス付けします
- 取得: 後でアプリケーションが情報を見つける必要がある場合、OpenSearch にクエリを実行して最も関連性の高いチャンクを見つけることができます。
このナレッジ ベースにクエリを実行する方法の簡単な例を次に示します:
async function queryKnowledgeBase(query: string) { const response = await client.search({ index: 'knowledge-base', body: { query: { multi_match: { query: query, fields: ['content'], }, }, }, }); return response.body.hits.hits.map(hit => ({ content: hit._source.content, documentKey: hit._source.documentKey, score: hit._score, })); }AWS の利点 ?️
S3、Lambda、OpenSearch などの AWS サービスを使用すると、次のことが得られます:
これで完成です!サーバーレスナレッジベースにチャンキングを実装する方法の実例。一番いいところは?これは自動的に拡大縮小され、あらゆるサイズのドキュメントを処理できます。
覚えておいてください、適切なチャンク化の鍵は次のとおりです:
ナレッジベースの構築に関するあなたの経験は何ですか?さまざまなチャンク化戦略を試してみましたか?以下のコメント欄でお知らせください。 ?
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3