La comunidad investigadora biosanitaria mundial está realizando un gran esfuerzo en la generación de conocimiento en torno a la COVID-19 y al SARS-CoV-2. Este esfuerzo se traduce en una producción ingente y muy rápida de publicaciones científicas, lo cual dificulta la consulta y el análisis de toda esa información. Por ello, resulta necesario proporcionar sistemas de información a las personas expertas y a las autoridades responsables en la toma de decisiones, que les permitan adquirir el conocimiento necesario.
Eso es, precisamente, lo que han desarrollado en el proyecto VIGICOVID un equipo de investigación del Centro HiTZ de la UPV/EHU, del grupo NLP & IR de la UNED y de la Unidad de Inteligencia Artificial en el ámbito lingüístico de Elhuyar, gracias a la financiación a través del Fondo Supera COVID-19 otorgada por la CRUE. Con la coordinación del grupo de investigación de la UNED, el resultado ha sido un prototipo para extraer información mediante preguntas y respuestas en lenguaje natural de un conjunto actualizado de artículos científicos publicados por la comunidad investigadora mundial en torno a la COVID-19 y el SARS-CoV-2.
“El paradigma de las búsquedas de información está cambiando gracias a la inteligencia artificial. Hasta ahora, para buscar información en la red, se introduce una pregunta, y la respuesta se debe buscar en los documentos que nos muestra el sistema. Sin embargo, en función del nuevo paradigma, cada vez están más extendidos los sistemas que ofrecen directamente la respuesta, sin necesidad de leer todo el documento”.
Eneko Agirre, director del Centro HiTZ de la UPV/EHU
En este sistema, “la persona usuaria no solicita la información mediante palabras clave, sino que formula directamente una pregunta”, explica el investigador de Elhuyar Xabier Saralegi. El sistema busca las respuestas a esa pregunta en dos fases: “En primer lugar, recupera los documentos que pueden contener la respuesta a la pregunta realizada, utilizando una tecnología que combina palabras clave y preguntas directas. Para eso hemos investigado arquitecturas neuronales”, añade el doctor Saralegi. Han utilizado arquitecturas neuronales profundas alimentadas con ejemplos: “Eso significa que los modelos de búsqueda y los modelos de respuesta a las preguntas se entrenan a través del aprendizaje automático profundo”.
Una vez extraída la serie de documentos, se vuelven a procesar mediante un sistema de preguntas y respuestas, para así obtener respuestas concretas: “Hemos construido el motor que responde a las preguntas; proporcionándole una pregunta y un documento, el motor es capaz de detectar si la respuesta se encuentra o no en el documento, y en caso afirmativo, dice exactamente dónde se encuentra”, explica el doctor Agirre.
Un prototipo fácilmente comercializable
Los investigadores creen que los resultados obtenidos son muy prometedores: “De las técnicas y las evaluaciones que hemos analizado en nuestros experimentos, hemos llevado al prototipo aquellas que han dado mejores resultados”, señala el investigador de Elhuyar. Han establecido una base tecnológica sólida, y han publicado varios artículos científicos al respecto. “Hemos conseguido otra manera de realizar búsquedas para casos de necesidad de información urgente, que facilita el proceso de consumo de información. A nivel de investigación hemos demostrado que la tecnología propuesta funciona, y que el sistema da buenos resultados”, apunta Agirre.
“Nuestro resultado es un prototipo de un proyecto de investigación básica. No se trata de un producto comercial”, destaca Saralegi. Pero este tipo de prototipos se puede escalar fácilmente y en poco tiempo, lo que permitiría comercializarlos y ponerlos al alcance de la sociedad. Los resultados abundan en la tendencia de que la inteligencia artificial permitirá disponer de instrumentos cada vez más potentes para trabajar con grandes bases de documentos. “Estamos avanzando muy rápidamente en este ámbito. Y, además, todo lo que se investiga llega fácilmente al mercado”, concluye el investigador de la UPV/EHU.
Referencia:
Arantxa Otegi, Iñaki San Vicente, Xabier Saralegi, Anselmo Peñas, Borja Lozano, Eneko Agirre (2022) Information retrieval and question answering: A case study on COVID-19 scientific literature Knowledge-Based Systems doi: 10.1016/j.knosys.2021.108072
Edición realizada por César Tomé López a partir de materiales suministrados por UPV/EHU Komunikazioa