D[IA]gnosis: Vektorisierung der Diagnose mit eingebetteten Python- und LLM-Modellen

Titelseite > Programmierung > d[IA]gnosis: Vektorisierung der Diagnose mit eingebetteten Python- und LLM-Modellen

d[IA]gnosis: Vektorisierung der Diagnose mit eingebetteten Python- und LLM-Modellen

Veröffentlicht am 02.09.2024

Durchsuche:421

Im vorherigen Artikel haben wir die d[IA]gnosis-Anwendung vorgestellt, die zur Unterstützung der Kodierung von Diagnosen in ICD-10 entwickelt wurde. In diesem Artikel werden wir sehen, wie InterSystems IRIS for Health uns die notwendigen Werkzeuge für die Generierung von Vektoren aus der ICD-10-Codeliste mithilfe eines vorab trainierten Sprachmodells, dessen Speicherung und die anschließende Suche nach Ähnlichkeiten auf allen diesen generierten Vektoren zur Verfügung stellt .

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

Einführung

Eines der Hauptmerkmale, die sich bei der Entwicklung von KI-Modellen herausgebildet haben, ist das, was wir als RAG (Retrieval-Augmented Generation) kennen, das es uns ermöglicht, die Ergebnisse von LLM-Modellen zu verbessern, indem wir einen Kontext in das Modell integrieren. Nun, in unserem Beispiel wird der Kontext durch die Menge der ICD-10-Diagnosen vorgegeben und um sie zu verwenden, müssen wir sie zunächst vektorisieren.

Wie kann ich unsere Diagnoseliste vektorisieren?

SentenceTransformers und Embedded Python

Für die Generierung von Vektoren haben wir die Python-Bibliothek SentenceTransformers verwendet, die die Vektorisierung von Freitexten aus vorab trainierten Modellen erheblich erleichtert. Von ihrer eigenen Website:

Sentence Transformers (auch bekannt als SBERT) ist das Python-Modul der Wahl für den Zugriff, die Verwendung und das Training modernster Text- und Bildeinbettungsmodelle. Es kann zum Berechnen von Einbettungen mithilfe von Satztransformator-Modellen (Schnellstart) oder zum Berechnen von Ähnlichkeitswerten mithilfe von Cross-Encoder-Modellen (Schnellstart) verwendet werden. Dadurch wird eine breite Palette von Anwendungen freigeschaltet, darunter semantische Suche, semantische Textähnlichkeit und Paraphrase-Mining.

Unter allen von der SentenceTransformers-Community entwickelten Modellen haben wir BioLORD-2023-M gefunden, ein vorab trainiertes Modell, das 786-dimensionale Vektoren generiert.

Dieses Modell wurde mit BioLORD trainiert, einer neuen Pre-Training-Strategie zur Erstellung aussagekräftiger Darstellungen für klinische Sätze und biomedizinische Konzepte.

Hochmoderne Methoden maximieren die Ähnlichkeit in der Darstellung von Namen, die sich auf dasselbe Konzept beziehen, und verhindern einen Zusammenbruch durch kontrastives Lernen. Da biomedizinische Namen jedoch nicht immer selbsterklärend sind, führt dies manchmal zu nicht semantischen Darstellungen.

BioLORD überwindet dieses Problem, indem es seine Konzeptdarstellungen auf Definitionen sowie Kurzbeschreibungen stützt, die aus einem multirelationalen Wissensgraphen abgeleitet sind, der aus biomedizinischen Ontologien besteht. Dank dieser Grundlage erzeugt unser Modell semantischere Konzeptdarstellungen, die besser der hierarchischen Struktur von Ontologien entsprechen. BioLORD-2023 schafft einen neuen Stand der Technik für Textähnlichkeit sowohl bei klinischen Sätzen (MedSTS) als auch bei biomedizinischen Konzepten (EHR-Rel-B).

Wie Sie in seiner Definition sehen können, ist dieses Modell mit medizinischen Konzepten vortrainiert, die bei der Vektorisierung sowohl unserer ICD-10-Codes als auch unseres Freitexts nützlich sein werden.

Für unser Projekt werden wir dieses Modell herunterladen, um die Vektorerstellung zu beschleunigen:

if not os.path.isdir('/shared/model/'):
    model = sentence_transformers.SentenceTransformer('FremyCompany/BioLORD-2023-M')            
    model.save('/shared/model/')

Sobald wir in unserem Team sind, können wir die zu vektorisierenden Texte in Listen eingeben, um den Prozess zu beschleunigen. Sehen wir uns an, wie wir die ICD-10-Codes vektorisieren, die wir zuvor in unseren ENCODER.Object.Codes Klasse.

st = iris.sql.prepare("SELECT TOP 50 CodeId, Description FROM ENCODER_Object.Codes WHERE VectorDescription is null ORDER BY ID ASC ")
resultSet = st.execute()
df = resultSet.dataframe()

if (df.size > 0):
    model = sentence_transformers.SentenceTransformer("/shared/model/")
    embeddings = model.encode(df['description'].tolist(), normalize_embeddings=True)

    df['vectordescription'] = embeddings.tolist()

    stmt = iris.sql.prepare("UPDATE ENCODER_Object.Codes SET VectorDescription = TO_VECTOR(?,DECIMAL) WHERE CodeId = ?")
    for index, row in df.iterrows():
        rs = stmt.execute(str(row['vectordescription']), row['codeid'])
else:
    flagLoop = False

Wie Sie sehen können, extrahieren wir zunächst die in unserer ICD-10-Codetabelle gespeicherten Codes, die wir noch nicht vektorisiert haben, die wir aber in einem vorherigen Schritt aufgezeichnet haben, nachdem wir sie aus der CSV-Datei extrahiert haben, und dann extrahieren wir die Liste der Beschreibungen zum Vektorisieren und mithilfe der Python-Bibliothek sentence_transformers stellen wir unser Modell wieder her und generieren die zugehörigen Einbettungen.

Abschließend aktualisieren wir den ICD-10-Code mit der vektorisierten Beschreibung, indem wir das UPDATE ausführen. Wie Sie sehen können, ist der Befehl zum Vektorisieren des vom Modell zurückgegebenen Ergebnisses der SQL-Befehl TO_VECTOR in IRIS.

Verwendung in IRIS

Okay, wir haben unseren Python-Code, also müssen wir ihn nur in eine Klasse einbinden, die Ens.BusinessProcess erweitert, ihn in unsere Produktion einbinden und ihn dann mit dem Business Service verbinden, der für den Abruf zuständig ist die CSV-Datei und fertig!

Sehen wir uns an, wie dieser Code in unserer Produktion aussehen wird:

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

Wie Sie sehen können, verfügen wir über unseren Business Service mit dem Adapter EnsLib.File.InboundAdapter, der es uns ermöglicht, die Codedatei zu sammeln und an unseren Geschäftsprozess umzuleiten, in dem wir alles ausführen Vektorisierungs- und Speichervorgänge, wodurch wir eine Reihe von Datensätzen wie die folgenden erhalten:

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

Jetzt wäre unsere Anwendung bereit, nach möglichen Übereinstimmungen mit den von uns gesendeten Texten zu suchen!

Im folgenden Artikel...

Im nächsten Artikel zeigen wir, wie das in Angular 17 entwickelte Anwendungs-Frontend in unsere Produktion in IRIS for Health integriert wird und wie IRIS die zu analysierenden Texte empfängt, vektorisiert und nach Ähnlichkeiten im ICD-10 sucht Codetabelle.

Verpassen Sie es nicht!

Freigabeerklärung Dieser Artikel ist abgedruckt unter: https://dev.to/intersystems/diagnosis-vectorizing-diagnostics-with-embedded-python-and-llm-models-3n8a?1 Bei Verstößen wenden Sie sich bitte an [email protected] um es zu löschen

Neuestes Tutorial Mehr>

Wie überprüfe ich, ob ein Objekt ein spezifisches Attribut in Python hat?
Methode zur Bestimmung von Objektattribut -Existenz Diese Anfrage befriedigt eine Methode, um das Vorhandensein eines bestimmten Attributs in ...

Programmierung Gepostet am 2025-03-15
Kann ich meine Verschlüsselung von McRypt nach OpenSSL migrieren und mit OpenSSL von McRypt-verkürzten Daten entschlüsseln?
Upgrade meiner Verschlüsselungsbibliothek von McRypt auf OpenSSL Kann ich meine Verschlüsselungsbibliothek von McRypt nach OpenSsl aufrüsten? ...

Programmierung Gepostet am 2025-03-15
Python Read CSV -Datei UnicodEdeCodeError Ultimate Lösung
unicode dekodieren Fehler in der CSV-Datei Reading Wenn versucht wird, eine CSV-Datei mit dem integrierten CSV-Modul zu lesen, können Sie eine...

Programmierung Gepostet am 2025-03-15
Können mehrere klebrige Elemente in reinem CSS übereinander gestapelt werden?
Ist es möglich, in reinem CSS mehrere klebrige Elemente gestapelt zu haben? Hier: https://webthemez.com/demo/sticky-multi-header-scroll/index.ht...

Programmierung Gepostet am 2025-03-15
Was waren die Einschränkungen bei der Verwendung von Current_Timestamp mit Zeitstempelspalten in MySQL vor Version 5.6.5?
Einschränkungen für Zeitstempelspalten mit Current_Timestamp in Standard- oder Aktualisierungsklauseln in MySQL -Versionen vor 5.6.5 Historisch ...

Programmierung Gepostet am 2025-03-15
Wie kann ich die letzte Zeile für jede eindeutige Kennung in PostgreSQL effizient abrufen?
postgresql: Extrahieren der letzten Zeile für jede eindeutige Kennung In Postgresql können Sie Situationen begegnen, in denen Sie die Informat...

Programmierung Gepostet am 2025-03-15
Wie rufe ich die neueste JQuery -Bibliothek von Google APIs ab?
abrufen die neueste jQuery -Bibliothek von Google apis Die bereitgestellte jQuery -URL in der Frage ist für Version 1.2.6. Für das Abrufen der...

Programmierung Gepostet am 2025-03-15
Warum kann Microsoft Visual C ++ keine zweiphasige Vorlage-Instanziierung korrekt implementieren?
Das Geheimnis von "kaputte" Two-Phase-Vorlage Instantiation in Microsoft visual c Problemanweisung: Benutzer werden häufig besorgt...

Programmierung Gepostet am 2025-03-15
Gibt es einen Leistungsunterschied zwischen der Verwendung einer For-Each-Schleife und einem Iterator für die Sammlung durchquert in Java?
für jede Schleife vs. Iterator: Effizienz in der Sammlung traversal Einführung beim Durchlaufen einer Sammlung in Java, die Auswahl an der...

Programmierung Gepostet am 2025-03-15
Wie setze ich Tasten in JavaScript -Objekten dynamisch ein?
wie man einen dynamischen Schlüssel für eine JavaScript -Objektvariable erstellt beim Versuch, einen dynamischen Schlüssel für ein JavaScript -O...

Programmierung Gepostet am 2025-03-15
Warum erscheint mein CSS -Hintergrundbild nicht?
Fehlerbehebung: CSS -Hintergrundbild erscheinen nicht Sie haben auf ein Problem gestoßen, bei dem Ihr Hintergrundbild trotz der folgenden Tuto...

Programmierung Gepostet am 2025-03-15
Wie entferte ich anonyme JavaScript -Ereignishandler sauber?
entfernen anonymer Ereignis -Hörer Hinzufügen von anonymen Ereignishörern zu Elementen bieten Flexibilität und Einfachheit, aber wenn es Zeit is...

Programmierung Gepostet am 2025-03-15
Wie beheben Sie die Diskrepanzen für Modulpfade in Go -Mod mithilfe der Richtlinie Ersetzen?
überwinden Modulpfad -Diskrepanz in go mod Wenn GO mod verwendet wird, ist es möglich, auf einen Konflikt zu begegnen, bei dem ein Drittanbiet...

Programmierung Gepostet am 2025-03-15
Warum hört die Ausführung von JavaScript ein, wenn die Firefox -Rückbutton verwendet wird?
Navigational History Problem: JavaScript hört auf, nach der Verwendung von Firefox -Back -Schaltflächen auszuführen. Dieses Problem tritt in ande...

Programmierung Gepostet am 2025-03-15
Wie extrahieren Sie ein zufälliges Element aus einem Array in PHP?
zufällige Auswahl aus einem Array In PHP kann ein zufälliger Element aus einem Array mit Leichtigkeit erreicht werden. Betrachten Sie das folgen...

Programmierung Gepostet am 2025-03-15

Einstufung Mehr>

Japanisch lernen Koreanisch lernen Chinesisch lernen Fremdsprache lernen Spiel Häufiges Problem Technologie-Peripheriegeräte KI Software-Tutorial Programmierung Artikel