D[IA]gnosis : Vectorisation des diagnostics avec des modèles Python et LLM intégrés

Page de garde > La programmation > d[IA]gnosis : Vectorisation des diagnostics avec des modèles Python et LLM intégrés

d[IA]gnosis : Vectorisation des diagnostics avec des modèles Python et LLM intégrés

Publié le 2024-09-02

Parcourir:727

Dans l'article précédent, nous avons présenté l'application d[IA]gnosis développée pour prendre en charge le codage des diagnostics dans la CIM-10. Dans cet article, nous verrons comment InterSystems IRIS for Health nous fournit les outils nécessaires pour la génération de vecteurs à partir de la liste de codes CIM-10 à l'aide d'un modèle de langage pré-entraîné, son stockage et la recherche ultérieure de similitudes sur tous ces vecteurs générés. .

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

Introduction

L'une des principales fonctionnalités apparues avec le développement des modèles d'IA est ce que nous appelons RAG (Retrieval-Augmented Generation) qui nous permet d'améliorer les résultats des modèles LLM en incorporant un contexte dans le modèle. Eh bien, dans notre exemple, le contexte est donné par l'ensemble des diagnostics de la CIM-10 et pour les utiliser, nous devons d'abord les vectoriser.

Comment vectoriser notre liste de diagnostics ?

SentenceTransformers et Python intégré

Pour la génération de vecteurs, nous avons utilisé la bibliothèque Python SentenceTransformers qui facilite grandement la vectorisation de textes libres à partir de modèles pré-entraînés. Depuis leur propre site Web :

Sentence Transformers (alias SBERT) est le module Python incontournable pour accéder, utiliser et former des modèles d'intégration de texte et d'images de pointe. Il peut être utilisé pour calculer des intégrations à l'aide de modèles Sentence Transformer (démarrage rapide) ou pour calculer des scores de similarité à l'aide de modèles Cross-Encoder (démarrage rapide). Cela ouvre la voie à un large éventail d'applications, notamment la recherche sémantique, la similarité textuelle sémantique et l'exploration de paraphrase.

Parmi tous les modèles développés par la communauté SentenceTransformers, nous avons trouvé BioLORD-2023-M, un modèle pré-entraîné qui générera des vecteurs à 786 dimensions.

Ce modèle a été formé à l'aide de BioLORD, une nouvelle stratégie de pré-formation permettant de produire des représentations significatives de phrases cliniques et de concepts biomédicaux.

Les méthodologies de pointe fonctionnent en maximisant la similarité dans la représentation des noms faisant référence au même concept et en empêchant l'effondrement grâce à un apprentissage contrastif. Cependant, comme les noms biomédicaux ne sont pas toujours explicites, ils donnent parfois lieu à des représentations non sémantiques.

BioLORD surmonte ce problème en fondant ses représentations conceptuelles à l'aide de définitions, ainsi que de courtes descriptions dérivées d'un graphe de connaissances multi-relationnel composé d'ontologies biomédicales. Grâce à cette base, notre modèle produit des représentations de concepts plus sémantiques qui correspondent plus étroitement à la structure hiérarchique des ontologies. BioLORD-2023 établit un nouvel état de l'art en matière de similarité de texte sur les phrases cliniques (MedSTS) et les concepts biomédicaux (EHR-Rel-B).

Comme vous pouvez le voir dans sa définition, ce modèle est pré-entraîné avec des concepts médicaux qui seront utiles lors de la vectorisation de nos codes ICD-10 et de notre texte libre.

Pour notre projet, nous allons télécharger ce modèle pour accélérer la création des vecteurs :

if not os.path.isdir('/shared/model/'):
    model = sentence_transformers.SentenceTransformer('FremyCompany/BioLORD-2023-M')            
    model.save('/shared/model/')

Une fois dans notre équipe, nous pouvons saisir les textes à vectoriser dans des listes pour accélérer le processus, voyons comment nous vectorisons les codes ICD-10 que nous avons préalablement enregistrés dans notre ENCODER.Object.Codes classe.

st = iris.sql.prepare("SELECT TOP 50 CodeId, Description FROM ENCODER_Object.Codes WHERE VectorDescription is null ORDER BY ID ASC ")
resultSet = st.execute()
df = resultSet.dataframe()

if (df.size > 0):
    model = sentence_transformers.SentenceTransformer("/shared/model/")
    embeddings = model.encode(df['description'].tolist(), normalize_embeddings=True)

    df['vectordescription'] = embeddings.tolist()

    stmt = iris.sql.prepare("UPDATE ENCODER_Object.Codes SET VectorDescription = TO_VECTOR(?,DECIMAL) WHERE CodeId = ?")
    for index, row in df.iterrows():
        rs = stmt.execute(str(row['vectordescription']), row['codeid'])
else:
    flagLoop = False

Comme vous pouvez le constater, nous extrayons d'abord les codes stockés dans notre table de codes ICD-10 que nous n'avons pas encore vectorisés mais que nous avons enregistrés dans une étape précédente après l'avoir extrait du fichier CSV, puis nous extrayons la liste des descriptions à vectoriser et en utilisant la bibliothèque Python sentence_transformers nous récupérerons notre modèle et générerons les plongements associés.

Enfin, nous mettrons à jour le code ICD-10 avec la description vectorisée en exécutant UPDATE. Comme vous pouvez le constater, la commande pour vectoriser le résultat renvoyé par le modèle est la commande SQL TO_VECTOR dans IRIS.

L'utiliser dans IRIS

D'accord, nous avons notre code Python, il nous suffit donc de l'envelopper dans une classe qui étend Ens.BusinessProcess et de l'inclure dans notre production, puis de le connecter au Service Métier en charge de la récupération le fichier CSV et c'est tout !

Voyons à quoi ressemblera ce code dans notre production :

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

Comme vous pouvez le constater, nous avons notre Business Service avec l'adaptateur EnsLib.File.InboundAdapter qui nous permettra de collecter le fichier de code et de le rediriger vers notre Business Process dans lequel nous effectuerons toutes les opérations de vectorisation et de stockage, nous donnant un ensemble d'enregistrements comme le suivant :

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

Notre application serait désormais prête à commencer à rechercher des correspondances possibles avec les textes que nous lui envoyons !

Dans l'article suivant...

Dans le prochain article nous montrerons comment l'application front-end développée en Angular 17 s'intègre à notre production dans IRIS for Health et comment IRIS reçoit les textes à analyser, les vectorise et recherche les similitudes dans la CIM-10 table de codes.

Ne le manquez pas !

Déclaration de sortie Cet article est reproduit sur : https://dev.to/intersystems/diagnosis-vectorizing-diagnostics-with-embedded-python-and-llm-models-3n8a?1 En cas de violation, veuillez contacter [email protected] pour le supprimer

Dernier tutoriel Plus>

Pourquoi les comparaisons booléennes «Flake8» sont-elles dans les clauses de filtre Sqlalchemy?
flake8 Flagging Boolean Comparison in Filter ClauseWhen attempting to filter query results based on a boolean comparison in SQL, developers may encoun...

La programmation Publié le 2025-04-18
Comment simplifier l'analyse JSON en PHP pour les tableaux multidimensionnels?
analysant JSON avec php essayer d'analyser les données JSON dans PHP peut être difficile, surtout lorsque vous traitez des tableaux multidim...

La programmation Publié le 2025-04-18
Pourquoi le corps {marge: 0; } `Supprimez toujours la marge supérieure dans CSS?
Addressant la suppression de la marge du corps dans CSS pour les développeurs Web novices, la suppression de la marge de l'élément corpore...

La programmation Publié le 2025-04-18
Quand utiliser "essayez" au lieu de "si" pour détecter les valeurs variables dans Python?
en utilisant "essayez" vs. "If" pour tester la valeur de variable dans python dans python, il existe des situations où vous ...

La programmation Publié le 2025-04-18
Comment formater facilement les données en tables dans Python?
Données de formatation pour la sortie tabulaire dans python, représentant les données au format tabulaire peut être un défi pour les débutants...

La programmation Publié le 2025-04-18
$Quelle méthode est la plus efficace pour la détection ponctuelle en polygone: traçage des rayons ou path.contains_points de Matplotlib \?$
Quelle méthode est la plus efficace pour la détection ponctuelle en polygone: traçage des rayons ou path.contains_points de Matplotlib \?
détection efficace de ponctuel en polygone dans python déterminer si un point se trouve dans un polygone est une tâche fréquente en géométrie de...

La programmation Publié le 2025-04-18
$Comment corriger \ "MySQL_Config INSTRUST \" Erreur lors de l'installation de MySQL-Python sur Ubuntu / Linux?$
Comment corriger \ "MySQL_Config INSTRUST \" Erreur lors de l'installation de MySQL-Python sur Ubuntu / Linux?
Erreur d'installation de mysql-python: "mysql_config non fondée" tentant d'installer mysql-python sur ubuntu / linux box peu...

La programmation Publié le 2025-04-18
Comment analyser les tableaux JSON en Go en utilisant le package «JSON»?
analyser les tableaux json dans Go avec le package json Problème: Comment pouvez-vous analyser une chaîne JSON représentant un Array dans Go...

La programmation Publié le 2025-04-18
Comment empêcher les soumissions en double après la rafraîchissement du formulaire?
Empêcher les soumissions en double avec une manipulation de rafraîchissement dans le développement Web, il est courant d'informer le probl...

La programmation Publié le 2025-04-18
Pourquoi DateTime :: Modify de PHP («+ 1 mois») produit-il des résultats inattendus?
Modification des mois avec PHP DateTime: Découvrir le comportement prévu Lorsque vous travaillez avec la classe DateTime de Php, l'ajout o...

La programmation Publié le 2025-04-18
jQuery obtient la valeur du groupe de boutons radio
Cet article fournit des extraits et des réponses concises de code jQuery et des réponses fréquemment posées (FAQ) concernant la manipulation des g...

La programmation Publié le 2025-04-18
Comment vérifier si un objet a un attribut spécifique dans Python?
Méthode pour déterminer l'existence de l'attribut d'objet Cette enquête cherche une méthode pour vérifier la présence d'un att...

La programmation Publié le 2025-04-18
Comment afficher correctement la date et l'heure actuelles dans le format "DD / MM / YYYY HH: MM: SS.SS" en Java?
Comment afficher la date et l'heure actuelles dans "dd / mm / yyyy hh: mm: ss.ss" format dans le code java fourni, le problème a...

La programmation Publié le 2025-04-18
Comment puis-je personnaliser les optimisations de compilation dans le compilateur Go?
Personnaliser les optimisations de compilation dans go compiller Le processus de compilation par défaut dans Go suit une stratégie d'optim...

La programmation Publié le 2025-04-18
Pourquoi Microsoft Visual C ++ ne parvient pas à implémenter correctement l'instanciation du modèle biphasé?
Le mystère de l'instanciation du modèle deux phases "Broken" dans Microsoft Visual C Instruction Problème: Les utilisateurs ex...

La programmation Publié le 2025-04-18

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article