Im digitalen Zeitalter der Informationsüberflutung ist es wichtiger denn je, umsetzbare Erkenntnisse aus großen Datenmengen zu gewinnen. Kürzlich habe ich mich auf den Weg gemacht, um Retrieval-Augmented Generation (RAG) zu nutzen, um eine große Herausforderung zu bewältigen – die Bereitstellung präziser Antworten aus einer riesigen Sammlung von Besprechungsnotizen. In diesem Blog werden die Hindernisse, Lösungen und Erfolge untersucht, die mein RAG-basiertes Abfrage-Antwort-System zu einem robusten Tool zum Extrahieren von Erkenntnissen aus unstrukturierten Besprechungsdaten gemacht haben.
Problemstellung: Herausforderungen bei der Abfragebeantwortung mit RAG
Eine der größten Herausforderungen bestand darin, ein System aufzubauen, das in der Lage ist, komplexe, zielspezifische Abfragen innerhalb eines riesigen Repositorys an Besprechungsnotizen zu verarbeiten. Herkömmliche RAG-Anfrage-Antwort-Modelle gaben häufig irrelevante oder unvollständige Informationen zurück und konnten die Absicht des Benutzers nicht erfassen. Die unstrukturierte Natur der Besprechungsdaten in Kombination mit verschiedenen Abfragetypen erforderte eine verfeinerte Lösung.
Erster Ansatz: Den Grundstein für eine effektive Anfragebeantwortung legen
Ich begann mit einem grundlegenden RAG-Modell, das darauf ausgelegt war, Abruf und Antwortgenerierung zu kombinieren. Zwei anfängliche Techniken waren:
Chunking: Die Aufteilung großer Dokumente in kleinere Segmente anhand von Satzgrenzen verbesserte die Suche durch Eingrenzung des Suchbereichs.
Einbettung und Vektorspeicherung: Nach dem Chunking wurde jedes Segment eingebettet und in einer Vektordatenbank gespeichert, was eine effiziente Suche ermöglichte.
Dieses Setup hatte jedoch Einschränkungen. Der anfängliche Chunking-Ansatz führte oft zum Abruf irrelevanter Informationen, und die generierten Antworten mangelten an Präzision und Übereinstimmung mit der Absicht der einzelnen Abfragen.
Herausforderungen bei der Beantwortung groß angelegter RAG-Anfragen
Diese Herausforderungen unterstrichen die Notwendigkeit eines fortschrittlicheren Ansatzes zur Verbesserung der Genauigkeit bei der Beantwortung von RAG-Anfragen.
Erweiterte RAG-Techniken für verbesserte Abfragegenauigkeit (Lösung)
Um diese Probleme anzugehen, habe ich mehrere fortschrittliche Methoden angewendet und das System iterativ verfeinert:
Semantisches Chunking
Im Gegensatz zum herkömmlichen Chunking priorisiert Semantic Chunking die Bedeutung innerhalb jedes Segments und erhöht die Relevanz, indem die abgerufenen Informationen an der Absicht der Abfrage ausgerichtet werden.
from langchain_experimental.text_splitter import SemanticChunker from langchain_openai.embeddings import OpenAIEmbeddings from langchain.schema import Document # Initialize OpenAI Embeddings with API key openai_api_key = "" embedder = OpenAIEmbeddings(openai_api_key=openai_api_key) text_splitter = SemanticChunker(embedder) def prepare_docs_for_indexing(videos): all_docs = [] for video in videos: video_id = video.get('video_id') title = video.get('video_name') transcript_info = video.get('details', {}).get('transcript_info', {}) summary = video.get('details', {}).get('summary') created_at = transcript_info.get('created_at') # Getting the created_at timestamp # Get the full transcription text transcription_text = transcript_info.get('transcription_text', '') # Create documents using semantic chunking docs = text_splitter.create_documents([transcription_text]) for doc in docs: # Add metadata to each document doc.metadata = { "created_at": created_at, "title": title, "video_id": video_id, "summary": summary } all_docs.append(doc) return all_docs docs = prepare_docs_for_indexing(videos) # Output the created documents for doc in docs: print("____________") print(doc.page_content)
Maximaler Margin-Abruf
Diese Methode verbesserte die Abrufgenauigkeit durch die Unterscheidung zwischen relevanten und irrelevanten Daten und stellte sicher, dass nur die am besten übereinstimmenden Datenblöcke abgerufen wurden.
Lambda-Bewertung
Mit Lambda Scoring konnte ich Ergebnisse nach Relevanz einstufen und Antworten priorisieren, die besser mit der Abfrageabsicht übereinstimmten, um eine bessere Antwortqualität zu erzielen.
from langchain_community.vectorstores import OpenSearchVectorSearch from langchain_openai import OpenAIEmbeddings embeddings = OpenAIEmbeddings() docsearch = OpenSearchVectorSearch.from_documents( docs, embeddings, opensearch_url="http://localhost:9200" ) query = "your query" docs = docsearch.max_marginal_relevance_search(query, k=2, fetch_k=10, lambda_param=0.25)
Mehrfachabfrage und RAG-Fusion
Bei komplexen Fragen generiert das System mehrere Unterabfragen. RAG Fusion integriert dann verschiedene Antworten in eine einzige, zusammenhängende Antwort, wodurch die Antwortqualität verbessert und Fehler reduziert werden.
def generate_multi_queries(question: str): # Template to generate multiple queries template = """You are an AI language model assistant. Your task is to generate five different versions of the given user question to retrieve relevant documents from a vector database. By generating multiple perspectives on the user question, your goal is to help the user overcome some of the limitations of the distance-based similarity search. Provide these alternative questions separated by newlines. Original question: {question}""" # Creating a prompt template for query generation prompt_perspectives = ChatPromptTemplate.from_template(template) # Generate the queries using ChatOpenAI and output parser generate_queries = ( prompt_perspectives | ChatOpenAI(temperature=0, openai_api_key=openai_api_key) | StrOutputParser() | (lambda x: x.split("\n")) ) # Invoke the chain to generate queries multi_queries = generate_queries.invoke({"question": question}) return multi_queries
def reciprocal_rank_fusion(results: list[list], k=60): """Applies Reciprocal Rank Fusion (RRF) to fuse ranked document lists.""" fused_scores = {} for docs in results: for rank, doc in enumerate(docs): doc_str = dumps(doc) # Convert to a serializable format if doc_str not in fused_scores: fused_scores[doc_str] = 0 fused_scores[doc_str] = 1 / (rank k) # RRF formula # Sort documents by the fused score reranked_results = [ (loads(doc), score) for doc, score in sorted(fused_scores.items(), key=lambda x: x[1], reverse=True) ] return reranked_result
Erweiterte Indexierung und optimierte Vektorsuche
Durch die Verbesserung des Indexierungsmechanismus und die Verfeinerung der Vektorsuchparameter wurde der Abruf schneller und genauer, insbesondere bei großen Datensätzen.
Ergebnisse: Wichtige Erfolge bei der Beantwortung von RAG-Anfragen
Die Implementierung dieser Techniken führte zu erheblichen Verbesserungen:
Wichtige Erkenntnisse und gewonnene Erkenntnisse
Auf dieser Reise habe ich mehrere zentrale Erkenntnisse identifiziert:
Fazit: Zukunftsaussichten für RAG-basierte Systeme
Die Erweiterung der RAG-Modelle mit fortschrittlichen Techniken verwandelte ein einfaches Retrieval-System in ein leistungsstarkes Tool zur Beantwortung komplexer, differenzierter Abfragen. Für die Zukunft möchte ich Echtzeit-Lernfunktionen integrieren, damit sich das System dynamisch an neue Daten anpassen kann. Diese Erfahrung vertiefte meine technischen Fähigkeiten und verdeutlichte die Bedeutung von Flexibilität, semantischem Fokus und iterativer Verbesserung in Datenabrufsystemen.
Abschließende Gedanken: Ein Leitfaden für die Implementierung fortschrittlicher RAG-Systeme
Indem ich meine Erfahrungen bei der Bewältigung von RAG-Herausforderungen teile, hoffe ich, einen Leitfaden für die Implementierung ähnlicher Lösungen anbieten zu können. Strategische Techniken, kombiniert mit iterativer Verfeinerung, lösten nicht nur unmittelbare Probleme, sondern legten auch eine solide Grundlage für zukünftige Fortschritte bei Abfrage-Antwort-Systemen.
Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.
Copyright© 2022 湘ICP备2022001581号-3