Ordenando el corpus científico sobre el Coronavirus; el proyecto Drugs4Covid

marzo 23, 2022

EL OEG de la UPM desarrolla DRUGS4COVID, una plataforma que combina técnicas de Inteligencia Artificial y Ciencia Ciudadana para crear un grafo de conocimientos sobre fármacos usados en el control clínico de la enfermedad, a partir de la explotación de grandes corpus de documentación científica sobre SARS-COV-2 y COVID-19

La idea de este proyecto nació durante los primeros meses de la pandemia. En marzo y abril de 2020 los ingresos hospitalarios por COVID-19 generaron un problema de suministro de medicamentos, ante lo que se hizo necesario investigar en la literatura científica sobre la enfermedad para acudir a fármacos alternativos disponibles.

La literatura científica publicada, donde se describen los principios activos, los fármacos y su uso, se demostró tan numerosa como difícil de gestionar, hasta el punto de que la Oficina de Política Científica y Tecnológica de la Casa Blanca hizo un llamamiento a la comunidad de Inteligencia Artificial internacional, poniendo en abierto su repositorio CORD-19 sobre artículos científicos relacionados con el coronavirus. Se trata de un repositorio de más de 300.000 documentos científicos en inglés, de entre los cuales se dispone del texto completo de más de 200.000.

El Ontology Engineering Group de la Universidad Politécnica de Madrid, con una exitosa trayectoria en las áreas de Ingeniería Ontológica, Web Semántica, Datos Enlazados, Procesamiento de Lenguaje Natural y e-Ciencia Semántica, contribuyó lanzando el proyecto Drugs4Covid.

El corpus CORD-19 ha sido la principal base de datos utilizada en este estudio. Cada semana se publica una nueva actualización que incrementa la colección inicial con nuevas publicaciones. La edición de abril de 2020, con 60.702 artículos científicos y 2.103.891 párrafos, fue la primera que se utilizó en el estudio. La última actualización indexada es la edición de enero de 2022, con 334.580 artículos científicos y más de 10 millones de párrafos.

Todo el contenido está siendo analizado mediante técnicas de procesamiento de lenguaje natural y extracción de conocimiento a través de un proceso en 4 pasos: (1) procesando e indexando el corpus de artículos y párrafos mediante la identificación de los principios activos, grupos terapéuticos, síntomas y enfermedades. (2) Anotando automáticamente, usando técnicas de Inteligencia Artificial, cada texto con esta información, y pidiendo la ayuda de científicos ciudadanos para (3) revisar estas anotaciones y proponer relaciones entre ellas. Finalmente, (4) publicando un grafo de conocimientos con todos los datos y sus evidencias, esto es, conectando y unificando de manera significativa la información y haciéndola interrogable de manera natural a través de aplicaciones que faciliten la búsqueda y navegación. De cara a facilitar el acceso a la información recogida en el grafo de conocimientos, se está desarrollando una interfaz de pregunta-respuesta que permite realizar consultas en lenguaje natural y devuelve respuestas también en lenguaje natural.

Todos estos resultados se están publicando en forma de datos abiertos para que puedan ser utilizados por la comunidad sanitaria y por cualquier otro equipo de investigación que quiera resolver problemas adicionales. De hecho, los modelos de lenguaje que se han creado para identificar medicamentos, enfermedades y genes en la literatura científica tuvieron más de 100.000 descargas en HuggingFace en su primer mes de publicación.

Más información del proyecto en su web: https://drugs4covid.oeg.fi.upm.es/

Other news

Jornada Inteligencia Artificial en Biomedicina

5 de septiembre de 2023

UPM HealthTech organiza una jornada sobre Inteligencia Artificial en Biomedicina en el Rectorado de la Universidad Politécnica de Madrid el 2 de octubre de 2023. La jornada cuenta con el apoyo institucional de la UPM y la coordinación del Profesor Víctor Maojo, catedrático de Inteligencia Artificial e investigador principal del Grupo de Informática Biomédica-UPM. Inscripción previa necesaria.

Curso ‘La tecnología 5G en la transformación digital de la Sanidad’. 2025.

26 de abril de 2023

Este curso proporciona un conocimiento global de los principales campos de acción estratégicos de la tecnología 5G en el sector salud, con el fin de situar a los alumnos a la vanguardia ante la transformación digital que vive el ámbito sanitario.

XVI Jornadas Anuales CIBER-BBN

16 de noviembre de 2022

El 7 y 8 de noviembre tuvo lugar en A Coruña la celebración de las Jornadas Anuales del CIBER-BBN en la que el grupo de investigación de la Universidad Politécnica de Madrid liderado por Mª Elena Hernando y J. Javier Serrano mostró sus trabajos más recientes.

IEEE CBMS 2023: IEEE 36th Symposium on Computer-Based Medical Systems. Call for Papers & special tracks

27 de octubre de 2022

CBMS es la principal conferencia sobre sistemas médicos basados en ordenadores, y una de las principales conferencias dentro de los campos de la informática médica y la informática biomédica. IEEE CBMS 2023 invita a presentar propuestas para la organización de Special Tracks que se celebrarán en paralelo a la temática general de la conferencia.