Développement d’algorithmes phénotypiques utilisant des dossiers médicaux électroniques et incorporant le traitement du langage naturel

L’utilisation croissante des dossiers médicaux électroniques (DME), principalement motivée par les efforts visant à améliorer la qualité des soins aux patients, a également lancé une discipline de recherche utilisant les données du DME. Au cours de la dernière décennie, les méthodes et outils spécifiquement utilisés pour mener des recherches EMR ont permis des analyses sophistiquées, notamment la pharmacovigilance1, l’association génétique2 et les études pharmacogénétiques.3 Les algorithmes de phénotypage utilisant des données EMR pour classer les patients avec des maladies et des résultats spécifiques recherche. Les codes de diagnostic ou de facturation sont généralement utilisés dans ces algorithmes et sont des exemples de données EMR structurées. Ces données sont facilement disponibles et consultables (fig 1 ​ 1),), mais leur précision est variable. Des travaux récents ont porté sur l’intégration d’autres données EMR informatives pour développer des algorithmes phénotypiques robustes. Figurant 1 Aperçu des deux principaux types de données EMR, structurées et non structurées, et comment ces données peuvent être intégrées pour des études de recherche. Dans ce cas, la figure illustre le développement d’un algorithme de phénotype pour la polyarthrite rhumatoïde. * Y compris … Au-delà des codes de facturation et de diagnostic, les DME avancés contiennent une variété de données structurées telles que les prescriptions électroniques et les valeurs de laboratoire. Une partie substantielle des données cliniques est également intégrée dans des données non structurées sous la forme de notes textuelles narratives, soit dactylographiées, soit dictées par des médecins (fig. 1). Extraire des informations précises à partir de notes narratives est un défi bien connu des chercheurs cliniques et est généralement obtenu grâce à une revue laborieuse des dossiers médicaux. Le traitement du langage naturel (PNL), 4 une spécialité de l’informatique et de l’informatique, a grandement aidé les chercheurs à extraire des données cliniques à partir de notes narratives de manière à haut débit. Bien que les technologies de pointe en PNL aient été appliquées avec succès aux moteurs de recherche Internet et à la reconnaissance vocale automatique, elles ne sont maintenant adaptées que par de nouvelles méthodes de recherche biomédicale.Les méthodes générales pour les algorithmes de phénotype EMR5 ont été spécifiées ailleurs6.

7

Cependant, la mise en œuvre de ces algorithmes avec une équipe d’experts du domaine clinique, de bioinformaticiens ou d’experts en PNL, de biostatisticiens, d’informaticiens EMR et de chercheurs en génomique n’a été analysée que de manière tangentielle. L’accent mis sur ce processus de mise en œuvre par une équipe multidisciplinaire était un objectif du projet informatique pour l’intégration de la biologie et du chevet (i2b2), avec l’objectif global d’exploiter les résultats du système de santé pour la recherche de découverte. Dans le cadre du projet i2b2, nous avons appliqué une approche générale pour développer plusieurs algorithmes de phénotypes: dépression, 9 diabète sucré (V Kumar, en préparation), maladie intestinale inflammatoire (colite ulcéreuse et maladie de Crohn), 10 sclérose en plaques, 11 Dans cette article, nous présentons une feuille de route des outils et des méthodes utilisées dans notre approche pour développer des algorithmes de phénotype EMR. Points de synthèseL’application réussie du traitement du langage naturel (NLP) dans un algorithme de phénotype développé à partir de dossiers médicaux électroniques (EMR) nécessite une équipe multidisciplinaire, des biostatisticiens, des informaticiens EMR et des experts PNL travaillant en étroite collaboration dans le domaine de l’informatique. Intégration de la biologie et de l’étude de chevet, NLP a amélioré la sensibilité de tous les algorithmes, classant plus de patients avec une grande précision que les algorithmes utilisant seulement des données structurées.Malgré d’autres méthodes robustes pour développer des algorithmes de phénotype EMR, la valeur prédictive positive et le pourcentage de patients classées par algorithme, sont les meilleures métriques pour évaluer la performance des algorithmes de phénotype EMR, quelle que soit la méthode de développementToolbox: composants de base nécessaires pour créer des algorithmes de phénotype EMR La première étape de la création d’un algorithme de phénotype EMR définit les principaux objectifs de recherche et la conception idéale de l’étude et la population. Par exemple, l’objectif initial de l’étude sur la polyarthrite rhumatoïde était de déterminer les facteurs de risque génétiques du trouble. Dans les études génétiques, un phénotype propre est nécessaire pour assurer une puissance suffisante pour détecter les allèles à risque associés à la maladie. Ainsi, nous avons cherché à développer un algorithme de classification pour la polyarthrite rhumatoïde qui identifierait un nombre suffisant de patients avec une valeur prédictive positive élevée (PPV > 90%) pour le trouble.