El presente-futuro de la Inteligencia Artificial en el proceso de revisión por pares

Irreductible

El uso de IA en el proceso de peer review es inminente. Imagen: Mike MacKenzie / Flickr / Creative Commons

No sabemos con certeza cuándo se implementó el actual método de revisión por pares como baremo decisorio para aceptar un artículo científico. Las primeras noticias de este sistema nos trasladan a mediados del siglo XVII cuando la recién fundada Royal Society de Londres (1660) lo utilizó en algunos de los artículos publicados en el histórico Philosophical Transactions, el journal más antiguo del mundo que, a modo de dato curioso, aún mantiene su actividad y vigencia. Han pasado algo más de tres siglos y, a pesar de las reticencias iniciales, la revisión por pares (peer review, en inglés) se ha convertido en el método más utilizado por las revistas para evaluar los artículos que publican y los que rechazan. Cuando el editor de un journal recibe un estudio, verifica que cumple los requisitos básicos de sus políticas editoriales y, a continuación, envía ese artículo a dos o más revisores para que analicen en profundidad el texto. Estos revisores comprobarán las propuestas de los autores y examinarán un amplio abanico de factores como su originalidad, pertinencia, calidad, rigurosidad científica, la validez de sus resultados, su posible reproducibilidad, la consistencia de los métodos utilizados o los aspectos éticos que rodean el estudio. Una vez realizado este proceso, los revisores determinarán si el artículo es aceptado sin correcciones (algo poco frecuente), si es aceptado con correcciones (mayores o menores) o directamente rechazado.

Tal y como su nombre indica, los «pares» suelen ser científicos del mismo campo tratado en el artículo propuesto que se embarcan en un proceso largo, complejo y tedioso por el que normalmente no cobran nada y que, a menudo, se realiza de manera anónima. En las últimas décadas el número de artículos científicos en revistas especializadas ha crecido considerablemente y, solo en este año 2025, se espera que se acepten y publiquen aproximadamente tres millones de estudios científicos en las diferentes revistas científicas revisadas por pares. Teniendo en cuenta que en el proceso participan dos expertos, como mínimo, el número de revisiones se eleva a más de seis millones de revisiones (siendo conservadores). Si a eso le sumamos otros dos millones de artículos que también serán analizados pero que finalmente serán rechazados, el número total de revisiones es enorme, abrumador. Cada vez es más difícil encontrar revisores adecuados y dispuestos para una tarea que no ha parado de aumentar y que crecerá aún más en los próximos años.

Creación de nuevas revistas científicas con peer review en los últimos 120 años. Fuente: Research Gate / Scopus.

En los últimos meses se han publicado numerosos artículos que analizan el posible papel que los grandes modelos de lenguaje (LLM) podrían ocupar en el proceso de revisión por pares. En un reciente artículo titulado «Adoptando la IA para una revisión por pares más eficiente y eficaz en ciencia», el profesor de la Universidad de Boston Howard Bauchner, uno de los responsables de la prestigiosa revista biomédica Critical Care Medicine, afirmó que «la revisión por pares debería incluir ya alguna forma de revisión inicial por IA que ayude a los editores a decidir qué artículos enviar para revisión por pares externa».

Sería la aplicación más evidente en los pasos previos del proceso de cribado, el que corresponde a los editores antes de pasar el artículo a los revisores, y Bauchner considera que «la Inteligencia Artificial será eficaz para evaluar si un artículo cumple con las directrices de publicación adecuadas». Sería una posible solución a uno de los problemas más repetidos ya que, en la práctica, los editores están pasando ese primer control a los revisores, y estos «no se encargan realmente de verificar su cumplimiento». Desde el punto de vista de algunos editores el uso de IA podría rellenar algunas lagunas de esta primera fase en la vida de los artículos científicos ya que los modelos existentes ya sobrepasan a los editores en diferentes aspectos como el de «detectar investigaciones fraudulentas con mayor eficacia».

La cuestión es controvertida pero no podemos decir que sea nueva. Hace algo más de ocho años, en 2018, se publicó un artículo en Nature que informaba de un «conjunto de herramientas automatizadas de Inteligencia Artificial con el objetivo de ayudar con la revisión por pares». La respuesta de la amplia mayoría de editoriales científicas fue la de no aceptar el uso de estas técnicas en sus procesos de revisión por pares. La reacción de los principales sellos científicos, así como las entidades financiadores, frente al rápido avance en redes neuronales, sistemas de deep learning y modelos de lenguaje ha sido la prohibición. Una de las razones que esgrimen es la «posible filtración de información confidencial si los investigadores suben material a sitios web de chatbots». Una preocupación que parece fácil de desmontar si los investigadores alojan sus herramientas y LLM sin conexión en sus propios ordenadores.

Hace unos meses, en diciembre de 2024, un estudio publicado en JAMA open estimó que «el 59 % de las 78 principales revistas médicas con directrices al respecto prohíben el uso de IA en la revisión por pares. El resto lo permite, con requisitos variables». El gigante Elsevier, por ejemplo, prohíbe totalmente a sus revisores el uso de IA generativa e incluso la revisión asistida por IA. Otros grupos editoriales importantes, como Wiley o Springer Nature, sí permiten su aplicación, estrictamente limitada a la revisión del trabajo humano no a la generación, y con la expresa condición de que se notifique y especifique cuál ha sido el uso.

No obstante, si algo nos ha enseñado la historia es que si aparece una tecnología que puede aplicarse a un campo determinado, ya sea mejorándolo o haciéndolo más rápido, tarde o temprano se acabará usando. En una encuesta a casi 5000 revisores, casi el 20% afirmó haber probado ya el uso de LLM para agilizar y facilitar sus revisiones. Del mismo modo, otro estudio publicado hace ahora casi un año, en abril de 2024, encontró «señales de que el texto había sido modificado sustancialmente por LLM, más allá de la corrección ortográfica o actualizaciones menores» en el 17% de las revisiones analizadas. El artículo se titulaba «¿ChatGPT corrompe la revisión por pares? Palabras reveladoras indican el uso de IA».

Porcentaje de artículos con palabras clave relacionadas con LLM. Fuente: Andrew Gray (2024) ChatGPT “contamination”: estimating the prevalence of LLMs in the scholarly literature ArXiv

Cada vez contamos con más ejemplos de revisiones en las que se ha utilizado IA. Algunos de ellos tan claros y burdos como el del investigador Thimotheé Poisot que, tras enviar un estudio a una revista científica recibió una inquietante respuesta de los revisores: «Aquí tiene una versión revisada de su revisión con mayor claridad y estructura». Decepcionado por esta respuesta, el científico escribió en su blog que «cuando envío un manuscrito para su revisión lo hago con la esperanza de recibir comentarios de mis colegas. Si no se cumple esta premisa, se pierde todo el contrato social que lo sustenta, […] mostrando lo cerca que estamos de abandonar la revisión por pares».

Más allá de las posturas enfrentadas, de la actual posición de las editoriales o de los entusiastas de las nuevas tecnologías, resulta conveniente ser realistas y asumir que estos modelos ya se están utilizando y que su uso crecerá en el futuro. La cuestión principal ahora pasa a ser qué papel deberían desempeñar.

Hace unas semanas, un artículo publicado en Nature apuntaba una opción razonable: «El uso de LLM fuera de línea para reformular las propias notas puede acelerar y agudizar el proceso de redacción de reseñas, siempre y cuando los LLM no elaboren una reseña completa en su nombre». El papel de la IA debe limitarse a la mejora del texto ya escrito por el revisor, detectar redundancias, refinar la redacción, organizar sugerencias… «Seamos claros, los modelos de lenguaje no están ahí para realizar una revisión completa, usted, como revisor debe emitir los juicios sobre la metodología, los hallazgos y la contribución general del artículo al campo». En este sentido ya contamos con numerosas tecnologías que ayudan en el proceso de revisión. Herramientas como Eliza desarrollada por la firma holandesa WBS que «ofrece sugerencias para mejorar la retroalimentación de los revisores, recomienda referencias relevantes y traduce al inglés las reseñas escritas en otros idiomas», o como Review Assistant, una aplicación que han puesto en marcha servicios editoriales de revisión como Enago y Charlesworth. También existen opciones de verificación, como Veracity, que aprovecha las altas capacidades de las redes neuronales para encontrar patrones y comprueba si hay indicios de plagios o si los artículos citados en el manuscrito existen realmente. Uno de los proyectos más avanzados es Alchemist Review, un software que «puede resumir los hallazgos y métodos principales, evaluar la novedad de la investigación y validar citas, […] en un entorno seguro que protege la confidencialidad de los manuscritos y la propiedad intelectual de los autores».

Todas estas herramientas se ofrecen bajo la premisa de ayudar al revisor a mejorar su trabajo, pero no a hacerlo por él y, esto no solo implica la inevitable reflexión ética sobre la autoría, sino que también apunta directamente al estado de la tecnología: «En su forma actual, las aplicaciones de IA generativa son incapaces de realizar revisiones por pares de forma independiente (es decir, sin supervisión humana), porque siguen cometiendo demasiados errores y su funcionamiento interno es desconocido y cambia rápidamente, lo que da lugar a resultados impredecibles».

Podríamos pensar que la revisión por pares realizada íntegramente por uno de estos sistemas de IA aún se encuentra lejos de ser posible pero algunos trabajos empíricos realizados con los modelos más específicos y avanzados dejan un panorama abierto. En un estudio publicado en NEJM AI se llevó a cabo un experimento interesante. Los autores ofrecieron a unos 300 biólogos e investigadores estadounidenses revisiones de sus propios artículos, «algunas realizadas por revisores humanos y otras por GPT-4». Los resultados muestran que la brecha se está reduciendo ya que, aproximadamente un 40 % de los encuestados dijo que la IA era igual o más útil que las revisiones humanas, frente a otro 42 % dijo que la IA era menos útil que muchos, pero más útil que algunos.

En definitiva nos encontramos, nuevamente, ante un campo tecnológico que avanza con más velocidad que las normas que deberían regularlo. El debate pronto dejará de ser si se prohíbe o se permite, sino cuál será exactamente su aplicación al terreno de la revisión por pares. Incluso las editoriales más estrictas suavizarán sus condiciones cuando no haya más remedio. Recordemos que la propia Nature era reacia a incluir el sistema de peer review y que, a pesar de que se fundó en 1869, no fue hasta 1973 cuando sus responsables aceptaron la revisión por pares de los artículos que publicaban. Nadie puede asegurar que la IA no tendrá un papel vital en el campo de la revisión científica, la cuestión que queda por resolver es cuál será ese papel.

Referencias científicas y más información:

Bauchner, H., & Rivara, F. P. «The Challenges and Future of Peer Review» Critical Care Medicine. (2025) DOI:10.1097/ccm.0000000000006642

Doskaliuk, Bohdana, et al. «Artificial Intelligence in Peer Review: Enhancing Efficiency While Preserving Integrity». JKMS NIH (2025) DOI:10.3346/jkms.2025.40.e92.

Naddaf, Miryam «AI Is Transforming Peer Review — and Many Scientists Are Worried». Nature (2025) DOI:10.1038/d41586-025-00894-7.

Boston University Chobanian & Avedisian School of Medicine «Artificial Intelligence is the Future of Peer Review» (2025)

Sobre el autor: Javier «Irreductible» Peláez (Puertollano, 1974) es escritor y comunicador científico. Autor de 500 años de frío. La gran aventura del Ártico (Crítica, 2019) y Planeta Océano (Crítica 2022). Es uno de los fundadores de la plataforma Naukas.com, editor de ciencia en Yahoo España y Latinoamérica. Es guionista científico en los programas de televisión «El Cazador de Cerebros» y «Órbita Laika» de RTVE. Durante más de una década ha escrito en diferentes medios de comunicación (El País, El Español, National Geographic, Voz Populi). Es autor de los podcasts Catástrofe Ultravioleta y La Aldea Irreductible, y ha colaborado en diferentes proyectos radiofónicos y televisivos (Radio Nacional de España, Radio Televisión Canaria). Es ganador de tres premios Bitácoras, un premio Prisma a la mejor web de divulgación científica y un Premio Ondas al mejor programa de radio digital.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.Los campos obligatorios están marcados con *