En 2005, John Ioannidis, prestigioso profesor de medicina de la Universidad de Stanford, publicó uno de los artículos más citados e influyentes de la literatura científica: Why Most Published Research Findings are False (Por qué la mayor parte de los resultados de investigación son falsos). Posteriormente, se acuñó el término “crisis de replicabilidad” para referirse al hecho de que un gran número de estudios científicos (especialmente en ciencias sociales y medicina) no han podido ser replicados, algo fundamental en ciencia. Este problema ha saltado a la opinión pública en diversas ocasiones, como cuando en mayo de 2016 una encuesta de la revista Nature desvelaba que el 90% de los científicos reconocen que esta crisis existe.
Muchos de los análisis apuntan, como Ioannidis, a que gran parte del problema reside en que muchos resultados de investigación no siguen un buen estándar de evidencia científica, lo cual se deriva de un mal uso o una mala interpretación de los métodos estadísticos utilizados. En particular, los contrastes de hipótesis y los p-valores están en el ojo del huracán. Estas herramientas son ampliamente usadas en campos como psicología y medicina en los que las preguntas típicas de investigación tienen una estructura similar, del tipo ¿es B diferente a A? Por ejemplo, obtengo un nuevo fármaco y quiero saber si tiene un efecto más allá del placebo, o quiero comprobar si un nuevo tratamiento es superior a otro. Las metodologías son asimismo similares, y consisten en medir el efecto en un grupo de sujetos con respecto a otro grupo de control. Y ahí es donde entra en juego la estadística.
Pero ¿qué es un contraste de hipótesis y un p-valor? ¿Qué es la significancia estadística y qué es eso de “p < 0.05”?
La ciencia es un ejercicio de inferencia inductiva, esto es, hacemos observaciones y tratamos de inferir reglas generales que las expliquen. Esto es lo contrario a lo que hacen las matemáticas, que a partir de un conjunto de reglas generales deducen resultados particulares, y estos son ciertos por definición si la deducción es formalmente correcta. La inducción es más compleja y requiere la acumulación de evidencia, por lo que nunca podemos estar completamente seguros en sentido estricto. En los años 20 del siglo pasado, Ronald Fisher abogó por evitar el problema filosófico de la inducción al promover métodos que cambian la pregunta de investigación para convertir la inducción en deducción. En lugar de responder ¿es B diferente a A?, suponemos que A y B son iguales, deducimos lo que esperaríamos observar y lo comparamos con lo observado.
Esta aproximación frecuentista se materializa en lo que se conoce como contrastes de hipótesis. En ellos se define una hipótesis nula (A y B son iguales) contraria a lo que se pretende demostrar (A y B son distintos) y se calcula un estadístico llamado p-valor que representa la probabilidad de obtener los datos observados (u otros más raros). En el uso común, si la probabilidad es suficientemente baja (típicamente menor que 0.05, el 5%, lo cual es un límite completamente arbitrario), se dice que hay significancia estadística y se acepta que las observaciones son suficientemente raras dada la hipótesis nula. Por tanto, se rechaza la hipótesis nula y se abraza la hipótesis alternativa en su lugar.
El p-valor es probablemente uno de los conceptos más escurridizos y malinterpretados de la estadística. A menudo lleva a falsos descubrimientos y afirmaciones directamente incorrectas en las que continuamente caen incluso los expertos, hasta tal punto que la American Statistical Association se vio en la obligación en 2016 de publicar una declaración oficial con una guía sobre qué son (y qué no son) los p-valores, sobre qué se puede afirmar con ellos y para qué se pueden utilizar. Algunas voces van más allá y afirman que si incluso aquellos versados en estadística a menudo utilizan mal y malinterpretan un método, significa que este es defectuoso en esencia.
Desde luego, la maniobra popularizada por Fisher es brillante, y los métodos son sencillos y metodológicamente atractivos, pero, aparte de las dificultades de interpretación,se esconden graves problemas que cuestionan su aplicación indiscriminada. Fundamentalmente, como hemos dicho, la pregunta de investigación cambia, por lo que no se responde a lo que verdaderamente nos interesa, i.e., ¿es B diferente a A, dados estos datos? En su lugar, se responde a cómo de raros son los datos si damos por bueno que A=B: ¡hemos dado la vuelta al objetivo!
En definitiva, el contraste de hipótesis se basa en recolectar evidencia indirecta en contra de una hipótesis nula, no evidencia directa a favor de la hipótesis alternativa, que es lo que se pretende comprobar realmente. Según los usos comunes, cuando no se encuentra evidencia en contra de la hipótesis nula (p-valor alto), esta se suele aceptar, lo cual es incorrecto: el mismo Fisher argumentaba que un p-valor alto significa que no aprendemos nada de las observaciones, y que por tanto solo significa que se requieren más datos. Por otro lado, cuando sí se encuentra evidencia en contra de la hipótesis nula (p-valor bajo), no solo se rechaza esta, sino que se acepta la hipótesis alternativa, lo que es todavía más problemático.
Como ya puso de manifiesto Jacob Cohen en su clásico artículo The earth is round (p < .05), allá por 1994, esta especie de prueba por contradicción funciona bajo las reglas de la lógica en las que las afirmaciones son ciertas o falsas, sin ningún tipo de incertidumbre: “si la hipótesis nula es correcta, estos datos no serían posibles; tenemos estos datos, luego la hipótesis es falsa”. Pero la naturaleza probabilística de los fenómenos que estudia la ciencia añade una incertidumbre que vuelve el razonamiento inválido: “si la hipótesis nula es correcta, estos datos serían poco probables; tenemos estos datos, luego la hipótesis es poco probable”. Antes que Cohen, Pollard y Richardson desmontaron esta aparente transitividad de la improbabilidad con un simple ejemplo concreto: “si una persona es americana, probablemente no es miembro del Congreso; esta persona es miembro del Congreso, luego no es americana”.
El famoso artículo de Ioannidis de 2005 causó una gran impresión en la opinión pública, pero no debería sorprender a ningún científico. Como hemos visto, ya en 1994 Cohen se quejaba amargamente de que, tras cuatro décadas de duras críticas, el método de Fisher y ese criterio sagrado de “p < 0.05” persistían. Y así seguimos, todavía, dos décadas más tarde. No obstante, no todo es culpa de Fisher. De hecho, él mismo alertaba contra el rechazo irreflexivo de la hipótesis nula, y decía del mágico y arbitrario valor “p < 0.05” que era un estándar demasiado bajo de evidencia. Todo eso, en cambio, parece que cayó en el olvido, y generaciones y generaciones de científicos siguen aprendiendo (y siguen sin entender) el legado, por otra parte extraordinario, de Ronald Fisher.
Sobre el autor: Iñaki Úcar es doctor en telemática por la Universidad Carlos III de Madrid e investigador postdoctoral del UC3M-Santander Big Data Institute
El legado de Fisher y la crisis de la ciencia – Enchufa2
[…] leyendo El legado de Fisher y la crisis de la ciencia, mi última colaboración en el Cuaderno de Cultura […]
Experimentación y evidencia: dos visiones opuestas — Cuaderno de Cultura Científica
[…] Anteriormente, hablábamos de estándares de evidencia científica y del problema filosófico de la inferencia inductiva; de cómo Ronald Fisher, hace un siglo, promovió métodos —como los contrastes de hipótesis— que evaden el problema, y adelantábamos que dichos métodos suponen una aproximación frecuentista a la realidad. A continuación abundaremos en el problema metodológico que plantean la medida y la estimación estadística de la (in)certidumbre, y que tiene su raíz en el concepto mismo de probabilidad. Esto da lugar a dos visiones opuestas aunque, como veremos, estrechamente relacionadas, lo que en estadística se denomina frecuentismo vs. bayesianismo. […]
Experimentación y evidencia: dos visiones opuestas – Enchufa2
[…] Anteriormente, hablábamos de estándares de evidencia científica y del problema filosófico de la inferencia inductiva; de cómo Ronald Fisher, hace un siglo, promovió métodos —como los contrastes de hipótesis— que evaden el problema, y adelantábamos que dichos métodos suponen una aproximación frecuentista a la realidad. A continuación abundaremos en el problema metodológico que plantean la medida y la estimación estadística de la (in)certidumbre, y que tiene su raíz en el concepto mismo de probabilidad. Esto da lugar a dos visiones opuestas aunque, como veremos, estrechamente relacionadas, lo que en estadística se denomina frecuentismo vs. bayesianismo. […]
/ En este episodio nos resistimos a ser succionados por la … – Historias Cienciacionales
[…] FuentesSobre el origen del uso de las labiodentales (el artículo original en inglés): science.sciencemag.org/content/363/6432/eaav3218 y una cobertura en español: invdes.com.mx/ciencia-ms/la-alim…ar-palabras-con-f/Sobre los buitres que respetan fronteras: http://www.sciencedirect.com/science/articl…06320717315550Y la nota del mismo Agustín sobre las lechuzas en la frontera Israel-Palestina: tengaparaqueseentretenga.wordpress.com/2017/…ente/Sobre la crisis del valor de p (en inglés): http://www.nature.com/articles/d41586-019-00857-9 y tandfonline.com/doi/full/10.1080/…1305.2019.1583913y este comentario en español sobre el tema: culturacientifica.com/2019/01/03/el-…de-la-ciencia/ […]