تقييم الجيل المعزز للاسترجاع الطبي (RAG) باستخدام نقاط نهاية NVIDIA AI وRagas

الصفحة الأمامية > برمجة > تقييم الجيل المعزز للاسترجاع الطبي (RAG) باستخدام نقاط نهاية NVIDIA AI وRagas

تقييم الجيل المعزز للاسترجاع الطبي (RAG) باستخدام نقاط نهاية NVIDIA AI وRagas

تم النشر بتاريخ 2024-11-15

تصفح:690

Evaluating Medical Retrieval-Augmented Generation (RAG) with NVIDIA AI Endpoints and Ragas

في مجال الطب، يعد دمج التقنيات المتقدمة أمرًا ضروريًا لتعزيز رعاية المرضى وتحسين منهجيات البحث. يعد توليد الاسترجاع المعزز (RAG) أحد هذه الابتكارات الرائدة، حيث يمزج قوة نماذج اللغات الكبيرة (LLMs) مع استرجاع المعرفة الخارجية. من خلال سحب المعلومات ذات الصلة من قواعد البيانات والأدبيات العلمية وسجلات المرضى، توفر أنظمة RAG أساس استجابة أكثر دقة وإثراء للسياق، ومعالجة القيود مثل المعلومات القديمة والهلوسة التي غالبًا ما يتم ملاحظتها في ماجستير إدارة الأعمال النقي.

في هذه النظرة العامة، سنستكشف الدور المتنامي لـ RAG في مجال الرعاية الصحية، مع التركيز على قدرتها على تحويل التطبيقات مثل اكتشاف الأدوية والتجارب السريرية. سنتعمق أيضًا في الأساليب والأدوات اللازمة لتقييم المتطلبات الفريدة لأنظمة RAG الطبية، مثل نقاط نهاية LangChain من NVIDIA وإطار عمل Ragas، جنبًا إلى جنب مع مجموعة بيانات MACCROBAT، وهي مجموعة من تقارير المرضى من PubMed Central.

التحديات الرئيسية لـ RAG الطبية

قابلية التوسع: مع توسع البيانات الطبية بمعدل نمو سنوي مركب يزيد عن 35%، تحتاج أنظمة RAG إلى إدارة المعلومات واسترجاعها بكفاءة دون المساس بالسرعة، خاصة في السيناريوهات التي يمكن أن تؤثر فيها الرؤى في الوقت المناسب على رعاية المرضى.
متطلبات اللغة والمعرفة المتخصصة : تتطلب أنظمة RAG الطبية ضبطًا خاصًا بالمجال نظرًا لأن المعجم الطبي والمحتوى يختلفان بشكل كبير عن المجالات الأخرى مثل التمويل أو القانون.
غياب مقاييس التقييم المخصصة : على عكس تطبيقات RAG ذات الأغراض العامة، يفتقر RAG الطبي إلى معايير مناسبة تمامًا. تؤكد المقاييس التقليدية (مثل BLEU أو ROUGE) على تشابه النص بدلاً من الدقة الواقعية المهمة في السياقات الطبية.
التقييم على أساس المكونات : يتطلب التقييم الفعال تدقيقًا مستقلاً لكل من مكونات الاسترجاع والتوليد. يجب أن يقوم الاسترجاع بسحب البيانات الحالية ذات الصلة، ويجب أن يضمن مكون الإنشاء الإخلاص للمحتوى المسترد.

تقديم Ragas لتقييم RAG

يقدم Ragas، وهو إطار تقييم مفتوح المصدر، نهجًا آليًا لتقييم خطوط أنابيب RAG. تركز مجموعة أدواتها على ملاءمة السياق، والتذكر، والإخلاص، وملاءمة الإجابة. باستخدام نموذج LLM كقاضي، يقلل Ragas من الحاجة إلى البيانات المشروحة يدويًا، مما يجعل العملية فعالة وفعالة من حيث التكلفة.

استراتيجيات التقييم لأنظمة RAG

للحصول على تقييم قوي لـ RAG، فكر في الخطوات التالية:

إنشاء البيانات الاصطناعية: إنشاء بيانات ثلاثية (سؤال، إجابة، سياق) استنادًا إلى مستندات مخزن المتجهات لإنشاء بيانات اختبار تركيبية.
التقييم القائم على المقاييس: قم بتقييم نظام RAG بناءً على مقاييس مثل الدقة والاستدعاء، ومقارنة استجاباته بالبيانات الاصطناعية التي تم إنشاؤها كحقيقة أساسية.
تقييم المكونات المستقلة: لكل سؤال، قم بتقييم مدى ملاءمة سياق الاسترجاع ودقة إجابة الجيل.

إليك مثال على خط الأنابيب: بالنظر إلى سؤال مثل "ما هي قياسات ضغط الدم النموذجية في قصور القلب الاحتقاني؟" يقوم النظام أولاً باسترداد السياق ذي الصلة ثم يقوم بتقييم ما إذا كانت الإجابة تتناول السؤال بدقة.

إعداد RAG باستخدام NVIDIA API وLangChain

للمتابعة، قم بإنشاء حساب NVIDIA واحصل على مفتاح API. قم بتثبيت الحزم الضرورية باستخدام:

pip install langchain
pip install langchain_nvidia_ai_endpoints
pip install ragas

قم بتنزيل مجموعة بيانات MACCROBAT، والتي توفر سجلات طبية شاملة يمكن تحميلها ومعالجتها عبر LangChain.

from langchain_community.document_loaders import HuggingFaceDatasetLoader
from datasets import load_dataset

dataset_name = "singh-aditya/MACCROBAT_biomedical_ner"
page_content_column = "full_text"

loader = HuggingFaceDatasetLoader(dataset_name, page_content_column)
dataset = loader.load()

باستخدام نقاط نهاية NVIDIA وLangChain، يمكننا الآن إنشاء مولد مجموعة اختبار قوي وإنشاء بيانات تركيبية بناءً على مجموعة البيانات:

from ragas.testset.generator import TestsetGenerator
from langchain_nvidia_ai_endpoints import ChatNVIDIA, NVIDIAEmbeddings

critic_llm = ChatNVIDIA(model="meta/llama3.1-8b-instruct")
generator_llm = ChatNVIDIA(model="mistralai/mixtral-8x7b-instruct-v0.1")
embeddings = NVIDIAEmbeddings(model="nv-embedqa-e5-v5", truncate="END")

generator = TestsetGenerator.from_langchain(
    generator_llm, critic_llm, embeddings, chunk_size=512
)
testset = generator.generate_with_langchain_docs(dataset, test_size=10)

نشر وتقييم خط الأنابيب

انشر نظام RAG الخاص بك في متجر متجه، وقم بإنشاء نماذج أسئلة من التقارير الطبية الفعلية:

# Sample questions
["What are typical BP measurements in the case of congestive heart failure?",
 "What can scans reveal in patients with severe acute pain?",
 "Is surgical intervention necessary for liver metastasis?"]

يرتبط كل سؤال بسياق مسترجع وإجابة حقيقية تم إنشاؤها، والتي يمكن بعد ذلك استخدامها لتقييم أداء كل من مكونات الاسترجاع والتوليد.

مقاييس مخصصة مع Ragas

قد تحتاج أنظمة RAG الطبية إلى مقاييس مخصصة لتقييم دقة الاسترجاع. على سبيل المثال، يمكن أن يحدد المقياس ما إذا كان المستند الذي تم استرداده ملائمًا بدرجة كافية لاستعلام البحث:

from dataclasses import dataclass, field
from ragas.evaluation.metrics import MetricWithLLM, Prompt

RETRIEVAL_PRECISION = Prompt(
    name="retrieval_precision",
    instruction="Is this result relevant enough for the first page of search results? Answer '1' for yes and '0' for no.",
    input_keys=["question", "context"]
)

@dataclass
class RetrievalPrecision(MetricWithLLM):
    name: str = "retrieval_precision"
    evaluation_mode = EvaluationMode.qc
    context_relevancy_prompt: Prompt = field(default_factory=lambda: RETRIEVAL_PRECISION)

# Use this custom metric in evaluation
score = evaluate(dataset["eval"], metrics=[RetrievalPrecision()])

مخرجات منظمة لتحقيق الدقة والموثوقية

للحصول على تقييم فعال وموثوق، تعمل المخرجات المنظمة على تبسيط عملية المعالجة. باستخدام نقاط نهاية LangChain من NVIDIA، قم بتنظيم استجابة LLM الخاصة بك إلى فئات محددة مسبقًا (على سبيل المثال، نعم/لا).

import enum

class Choices(enum.Enum):
    Y = "Y"
    N = "N"

structured_llm = nvidia_llm.with_structured_output(Choices)
structured_llm.invoke("Is this search result relevant to the query?")

خاتمة

تعمل RAG على ربط برامج LLM واسترجاع المتجهات الكثيفة لتطبيقات عالية الكفاءة وقابلة للتطوير عبر المجالات الطبية ومتعددة اللغات ومجالات توليد الأكواد. في مجال الرعاية الصحية، تكون قدرتها على تقديم استجابات دقيقة واعية بالسياق واضحة، ولكن التقييم يجب أن يعطي الأولوية للدقة، وخصوصية المجال، وفعالية التكلفة.

يوفر مسار التقييم المحدد، الذي يستخدم بيانات الاختبار الاصطناعية ونقاط نهاية NVIDIA وRagas، طريقة قوية لتلبية هذه المتطلبات. للتعمق أكثر، يمكنك استكشاف أمثلة Ragas وNVIDIA Geneative AI على GitHub.

بيان الافراج تم إعادة نشر هذه المقالة على: https://dev.to/koolkamalkishor/evaluating-medical-retrieval-augmented-generation-rag-with-nvidia-ai-endpoints-and-ragas-2m34?1 إذا كان هناك أي انتهاك، من فضلك اتصل بـ [email protected]

أحدث البرنامج التعليمي أكثر>

CSS تحليل اللغة بقوة
واحدة من الطرق التي يمكنك من خلالها تصنيف لغة البرمجة هي مدى قوة أو ضعفها. هنا ، "المكتوبة" تعني إذا كانت المتغيرات معروفة في وقت الترجمة. ...

برمجة نشر في 2025-07-17
كيفية دمج أعمدة السنة والربع في عمود دوري واحد في الباندا؟
concatenating أعمدة لعمود فترة جديدة Quarter 2001q3 الحل: df ["" Quarter "] لاحظ أنه في Python 3 ، من الضروري تحويل ...

برمجة نشر في 2025-07-17
دليل إنشاء صفحة Fastapi مخصص 404
تعتمد الطريقة المناسبة على متطلباتك المحددة. call_next (طلب) إذا كان الاستجابة. status_code == 404: إرجاع RedirectResponse ("https://fasta...

برمجة نشر في 2025-07-17
كيف تسترجع أحدث مكتبة jQuery من Google APIs؟
لاسترداد أحدث إصدار ، كان هناك سابقًا بديلًا لاستخدام رقم إصدار معين ، والذي كان لاستخدام بناء الجملة التالي: /latest/jquery.js Budaps &&. للحصول...

برمجة نشر في 2025-07-17
لماذا تبدو الوصلات اليسرى مثل التوصيلات الداخلية عند التصفية في الفقرة في الجدول الأيمن؟
اليسار الانضمام إلى اللغز: ساعات الساحرة عندما يتحول إلى انضمام داخلي في عالم معالج قاعدة البيانات ، فإن أداء استرداد البيانات المعقدة باستخدام ...

برمجة نشر في 2025-07-17
لماذا توجد خطوط في خلفية التدرج الخطية ، وكيف يمكنني إصلاحها؟
لحفر خطوط الخلفية من التدرج الخطي عند توظيف خاصية الدرجات الخطية لخلفية ، قد تواجه خطوطًا ملحوظة عندما يتم ضبط الاتجاه على الأعلى أو الأسفل. ي...

برمجة نشر في 2025-07-17
كيف تقوم خريطة Java و Simpleentry بتبسيط إدارة الزوجين الرئيسيين؟
مجموعة شاملة لأزواج القيمة: تقديم خريطة Java. ومع ذلك ، بالنسبة للسيناريوهات التي يكون فيها الحفاظ على ترتيب العناصر أمرًا بالغ الأهمية والتفرد ل...

برمجة نشر في 2025-07-17
هل يمكن أن تعتمد معلمات القالب في وظيفة C ++ 20 الإضافية على معلمات الوظيفة؟
compile-time. c 20 وظائف الإضافية ومع ذلك ، يبقى السؤال: هل هذا يعني أن معلمات القالب يمكن أن تعتمد الآن على وسيطات الوظيفة؟ تقر الورقة بأن ...

برمجة نشر في 2025-07-17
كيف يمكنني استرداد قيم السمات بكفاءة من ملفات XML باستخدام PHP؟
عند العمل مع ملف XML يحتوي على سمات مثل المثال المقدم: Stumped. لحل هذا ، يقدم PHP حلًا مباشرًا باستخدام وظيفة SimplexMlelement :: Attribut...

برمجة نشر في 2025-07-17
هل هناك اختلاف في الأداء بين استخدام حلقة EACH وتكرار لجمع اجتماعي في Java؟
تستكشف هذه المقالة اختلافات الكفاءة بين هذين النهجين. يستخدم ITerator داخليًا: قائمة a = new ArrayList () ؛ ل (عدد صحيح عدد صحيح: أ) { intege...

برمجة نشر في 2025-07-17
ما هو الفرق بين الوظائف المتداخلة والإغلاق في بيثون
لا تعتبر غير المساواة Make_printer (MSG): طابعة DEF (): طباعة (MSG) إرجاع طابعة هنا ، وظيفة الطابعة هي وظيفة متداخلة داخل Make_...

برمجة نشر في 2025-07-17
طرق الوصول والإدارة لمتغيرات بيئة بيثون
الوصول إلى متغيرات البيئة في python بشكل افتراضي ، فإن الوصول إلى المتغير داخل رسم الخرائط يطالب بالمترجم المترجم للبحث في قاموس Python عن قيمته...

برمجة نشر في 2025-07-17
كيفية استخراج النص داخل الأقواس بكفاءة في PHP باستخدام regex
أحد الأساليب هو استخدام وظائف معالجة سلسلة PHP ، كما هو موضح أدناه: $ fullString = "تجاهل كل شيء باستثناء هذا (النص)" ؛ ، $ fullstrin...

برمجة نشر في 2025-07-17
Async void vs. Async Task in ASP.NET: لماذا ترمي طريقة الفراغ Async أحيانًا استثناءات؟
ومع ذلك ، يمكن أن يؤدي سوء فهم الاختلافات الرئيسية بين أساليب المهمة ASYNC و ASYNC إلى أخطاء غير متوقعة. يستكشف هذا السؤال لماذا قد تؤدي أساليب الف...

برمجة نشر في 2025-07-17
كيف تستخدم بشكل صحيح مثل الاستعلامات مع معلمات PDO؟
استخدام مثل الاستعلامات في pdo عند محاولة تنفيذ الاستفسارات في pdo ، قد تواجه مشكلات مثل تلك الموصوفة في الاستعلام أدناه: $ params = array ($ ...

برمجة نشر في 2025-07-17