La interpretabilidad de los modelos de inteligencia artificial

Investigación UPV/EHU

Imagina que eres médico y utilizas un sistema de IA de última generación para diagnosticar a tus pacientes. Un día, te dice que un paciente tiene una enfermedad rara, pero cuando le preguntas por qué, simplemente parpadea, incapaz de explicar su razonamiento. Frustrante, ¿verdad? Este escenario puede sonar a ciencia ficción, pero es un reto real en el mundo del aprendizaje automático hoy en día.

Bienvenido al fascinante mundo de la interpretabilidad de modelos, un tema que lleva muchos años dando que hablar en la comunidad de la IA. A medida que los modelos de aprendizaje automático se vuelven más complejos e influyen más en nuestras vidas, nos enfrentamos a una pregunta acuciante: ¿Cómo podemos confiar en las decisiones tomadas por algoritmos que no comprendemos del todo?

interpretabilidad
Foto: Icons8 Team / Unsplash

En un artículo clásico -muy citado- titulado «The Mythos of Model Interpretability» (2017) el investigador Zachary C. Lipton profundiza en este aspecto crucial. Sostiene que, aunque todo el mundo parece hablar de interpretabilidad, en realidad no tenemos una definición clara y consensuada de lo que significa.

La importancia de la interpretabilidad

Entonces, ¿qué importancia tiene la interpretabilidad? Bueno, resulta que hay varias interpretaciones o motivaciones diferentes para la interpretabilidad en el aprendizaje automático:

Confianza (trust): Queremos estar seguros de que nuestros modelos toman decisiones por las razones correctas. Imaginemos un coche autoconducido que hace un giro brusco: ¿no querríamos saber por qué?

Causalidad (causality): En campos como la medicina, no sólo nos interesan las predicciones, sino entender las causas subyacentes. Una IA capaz de predecir una enfermedad cardiaca es útil, pero una que pueda explicar los factores que la provocan tiene un valor incalculable.

Toma de decisiones justa y ética: Como la IA se utiliza cada vez más en ámbitos delicados como la justicia penal y la aprobación de préstamos, tenemos que asegurarnos de que no perpetúa los prejuicios. Si una IA deniega un préstamo a alguien, tenemos que poder examinar su proceso de toma de decisiones.

Informatividad (informativiness): A veces queremos que nuestros modelos nos enseñen algo nuevo sobre el mundo. Un modelo interpretable puede revelar patrones o relaciones inesperadas en los datos.

Transferibilidad (transferability): Necesitamos saber hasta qué punto nuestros modelos funcionarán bien en situaciones nuevas y ligeramente diferentes. Esto es crucial para desplegar sistemas de IA en el mundo real, donde las condiciones pueden cambiar.

Los enfoques de la interpretabilidad

Lipton señala que hay distintas formas de lograr la interpretabilidad. Algunos investigadores se centran en hacer más transparente el funcionamiento interno de los modelos, mientras que otros desarrollan técnicas para explicar las decisiones de los modelos a posteriori.

Los enfoques de la transparencia incluyen:

  • Simulabilidad: ¿Puede un ser humano simular todo el modelo?

  • Descomponibilidad: ¿Puede entenderse intuitivamente cada parte del modelo?

  • Transparencia algorítmica: ¿Entendemos cómo funciona el algoritmo de aprendizaje?

Entre los métodos de interpretabilidad post hoc se incluyen:

  • Explicaciones textuales: Generación de explicaciones legibles para el ser humano sobre las decisiones del modelo.

  • Visualización: Creación de representaciones visuales de lo que ha aprendido el modelo.

  • Explicaciones locales: Explicar predicciones individuales en lugar de todo el modelo.

  • Explicación mediante ejemplos: Mostrar casos similares que el modelo utilizó para tomar su decisión.

Curiosamente, el artículo cuestiona algunos supuestos comunes. Por ejemplo, mucha gente cree que los modelos lineales simples son intrínsecamente más interpretables que las redes neuronales complejas. Pero Lipton sostiene que esto no siempre es cierto: depende de lo que entendamos por interpretabilidad y de cómo se utilicen los modelos. Por ejemplo, un modelo lineal con miles de características puede ser más difícil de entender a primera vista que una red neuronal entrenada con datos brutos. La elección entre interpretabilidad y rendimiento no siempre está clara.

La interpretabilidad, un arma de doble filo

Aunque el impulso a favor de la interpretabilidad es generalmente positivo, Lipton advierte de que no está exento de posibles inconvenientes. Por ejemplo, a veces, hacer que un modelo sea más interpretable puede reducir su precisión. O puede que las explicaciones sencillas nos den una falsa sensación de seguridad sobre los sistemas complejos. O tal vez, quién sabe, un modelo muy interpretable podría revelar información sensible sobre los datos de entrenamiento.

A medida que la IA sigue dando forma a nuestro mundo, tenemos que ser más precisos sobre lo que queremos decir cuando exigimos modelos «interpretables». No se trata solo de simplificar las cosas, sino de garantizar que nuestros sistemas de IA se ajusten a los valores humanos y sean fiables a la hora de tomar decisiones importantes.

La búsqueda de una IA interpretable es algo más que un reto técnico: es un paso crucial en la creación de sistemas de IA en los que podamos confiar y que podamos utilizar de forma responsable en la sociedad. Mientras seguimos ampliando los límites de lo que la IA puede hacer, también debemos ampliar nuestra comprensión de cómo funciona. Es un viaje que promete no solo hacer que nuestros sistemas de IA sean más fiables, sino también profundizar en nuestra propia comprensión de la toma de decisiones y de la propia inteligencia.

Para saber más:

La IA podría convertir la ciencia en algo incomprensible
¿Qué es el aprendizaje automático?

Sobre el autor: Julián Estévez Sanz, Profesor e investigador en Robótica e Inteligencia Artificial, Universidad del País Vasco / Euskal Herriko Unibertsitatea

Este artículo es una versión del publicado en El blog de Julián Estévez el 19 de agosto de 2024

Deja una respuesta

Tu dirección de correo electrónico no será publicada.Los campos obligatorios están marcados con *