Veinte consejos para interpretar resultados y publicaciones científicas

Fronteras

Ilustración: Dawid Ryski.
Ilustración: Dawid Ryski.

Hace unas semanas la revista Nature publicaba 20 consejos para interpretar afirmaciones científicas, con el objetivo de orientar a los no especialistas a la hora de interpretar la fiabilidad y rigor de un estudio. En este artículo hemos resumido y adaptado los 20 puntos (que no traducido) que podrían ser útiles para que el lector los tenga en cuenta. Hay quizá otros muchos sesgos y factores que podrían formar parte de la lista, pero aquí nos hemos limitado a recoger los 20 señalados por William J. Sutherland, David Spiegelhalter y Mark A. Burgman, adaptando alguna explicación para que se entienda mejor:

1. Las diferencias y la probabilidad originan los cambios. En el mundo real hay miles de variables y conviene no hacer una interpretación lineal de los hechos.

2. Ninguna medición es exacta. Todas tienen algún margen de error, por pequeño que sea. Todos los estudios deben mostrar claramente cuál es para no dar a entender un grado de certeza que no se tiene.

3. Hay sesgos en todas partes. El propio diseño experimental puede estar sesgado. Los científicos buscan resultados significativos y tienden a dar una visión exagerada de los problemas o de la efectividad de las soluciones. Lo más importante es que el experimento sea de doble ciego y que ni el experimentador ni los sujetos conozcan los detalles del experimento. Otro sesgo muy frecuente es el de confirmación, pues se tiende a insistir más en la línea del resultado que se espera obtener.

4. Cuanto más grande es la muestra, mejor. Que la muestra sea grande es especialmente importante en estudios donde hay grandes variaciones naturales o grandes márgenes de error. Siempre es más fiable un estudio con decenas de miles de participantes que con unas pocas decenas.

5. Correlación no implica causalidad. La correlación entre dos variables puede ser meramente casual, por tentador que nos parezca afirmar lo contrario. La mayoría de las veces entra en juego un tercer factor oculto. Por ejemplo, en su día algunos ecologistas pensaron que las algas venenosas estaban matando a los peces en algunos ríos. Resultó que las algas crecían donde los peces morían, y no eran la causa de las muertes.

6. La regresión a la media puede confundir. En ocasiones los fenómenos tienen sus propios ciclos y el momento de la medición puede inducirnos a error. Un ejemplo muy común de esta ilusión cognitiva es el que sucede con la homeopatía: la mayoría de los catarros suele remitir por sí mismos y los homeópatas aprovechan para reclamar poderes curativos de su placebo. Otro ejemplo es el que da Ben Goldacre en su libro ‘Mala Ciencia’ sobre la maldición de los deportistas que salen en la portada de Sports Illustrated. Cuando aparecen, lo natural es que estén en la cima y lo más probable es que empeoren.

7. Extrapolar más allá de los datos es arriesgado. Los patrones encontrados dentro de un determinado rango no tienen por qué funcionar fuera de él Observar un fenómeno en un ámbito y asumir que se da en otros ámbitos es un error común.

8. Cuidado con la negación del ratio base. Este error se produce cuando identificamos mal la probabilidad de que se dé un hecho al tomar como referencia un dato concreto. Por este motivo, por ejemplo, nos parece más probable morir en un atentado o un accidente de avión que en un resbalón en la bañera, cuando es al contrario. O el motivo por el que si a una persona le hacen un análisis de sangre que detecta una enfermedad con un acierto del 99% hay muchas posibilidades de que no tenga nada, aunque él crea que hay un 99%. Así, si la enfermedad afecta a 5 de cada 10000 personas y el test da siempre positivo si efectivamente tienes la enfermedad, eso significa que al realizar el test habrá 99,95 (1% de 9995) falsos positivos y 5 positivos reales. Por lo tanto la probabilidad de que tengas la enfermedad si has dado positivo es 5/(5+99,95) = 0.048, es decir, el 4,8%, muy lejos del 99% que suponías.

9. Los controles son importantes. Un grupo de control se mantiene en las mismas condiciones que el grupo del experimento, salvo que el tratamiento no se les aplica a sus miembros. Sin esta medida es muy difícil saber si un tratamiento tiene realmente un efecto.

10. La aleatoriedad reduce el sesgo. Cuando se diseña un experimento, los grupos y los individuos deben ser elegidos de forma aleatoria. Si se atiende a distintas características de los miembros del grupo, es más que probable que los resultados tengan un sesgo.

11. Busca la replicación, no la pseudorreplicación. Para comprobar la consistencia de un estudio los resultados deben ser replicables, pero si se replican en poblaciones independientes, son más sólidos. Cuando se diseña un ensayo con un tipo concreto de población es habitual que se obtengan resultados que no son extrapolables a otros tipos de poblaciones.

12. Los científicos son humanos. Los investigadores tienen intereses privados y, como en todos los colectivos, puede haber algún tramposo. El propio sistema de revisión por pares es engañoso puesto que los editores son más propensos a pasar los resultados positivos y tumbar los negativos. Para dar algo por comprobado de forma convincente, se necesita la confirmación por varias fuentes.

13. La significación es importante. La significación estadística está relacionada con la probabilidad de que algo haya sucedido por mero azar. Cuanto menor es el valor de esta probabilidad, menores son las posibilidades de que los resultados del estudio sean un espejismo o una casualidad.

14. Significación y efectos. La falta de significación estadística no quiere decir que no haya ningún efecto subyacente, sino que no se ha detectado ninguno. En ocasiones, un estudio pequeño puede no detectarlo, pero un estudio más exhaustivo puede encontrar una relación oculta, un efecto secundario o una consecuencia no observada.

15. La estadística no lo es todo. Las respuestas sutiles son más difíciles de ser detectadas, pero la importancia de un efecto, aunque éste sea pequeño, no es simplemente una cuestión estadística, puede tener implicaciones biológicas, físicas o sociales. En los años 90, la revista Epidemiology pidió a los autores que dejaran de usar simplemente la significación estadística porque estaban malinterpretando sistemáticamente los resultados.

16. Cuidado con las generalizaciones. Un ejemplo claro son las conclusiones que se sacan de un experimento en ratones respecto a lo que puede suceder en humanos.

17. Los sentimientos influyen en la percepción de riesgo. A pesar de los datos objetivos, la percepción del riesgo puede obedecer a factores psicológicos y sociales. En EEUU, por ejemplo, se sobrevalora el riesgo de vivir junto a una central nuclear y se subestima el de tener un arma en casa.

18. La confluencia de factores cambia los riesgos. Se pueden calcular los riesgos que tienen hechos independientes, pero en ocasiones puede ocurrir que los riesgos evaluados no sean realmente independientes y el riesgo real sea mucho mayor . Con que se desate el primer factor aumenta la posibilidad de que confluyan los otros y crece el riesgo. En el colapso de las hipotecas basura en EEUU se dio un caso claro de un cálculo erróneo de la independencia de los riesgos de las hipotecas individuales.

19. Los datos pueden ser seleccionados intencionadamente. El denominado ‘cherry-picking’ consiste en seleccionar solo aquellas pruebas o argumentos que dan la razón a nuestra tesis. Cuando se buscan resultados muy concretos se tiende a seleccionar solo los datos convenientes, cuando lo adecuado para hacer buena ciencia es reunir cantidades ingentes de datos, como sucedió en la búsqueda del bosón de Higgs, por ejemplo.

20. Las mediciones extremas pueden confundir. En los estudios donde se quiere medir una variable para comparar distintos elementos que tienen esa variable, como por ejemplo si queremos elaborar un ranking de universidades o de centros de investigación (elementos) en función de su productividad científica (variable), suele ocurrir que existen muchas fuentes de variabilidad que afectan a esa variable, en nuestro ejemplo la financiación disponible, el equipamiento, la calidad del profesorado o, incluso, la serendipia. Cuando se obtienen los resultados de estudios así es muy fácil simplificar y atribuir la variación de la variable a un sólo factor, por ejemplo la financiación, con lo que las comparaciones que se realizan de los valores extremos, la universidad número 1 y la última, ya sea entre sí, con la media o con la mediana, no son realmente significativos. Esto se da en prácticamente todos los rankings.

Referencia bibliográfica:

Sutherland W.J., Spiegelhalter D. & Burgman M. (2013). Policy: Twenty tips for interpreting scientific claims, Nature, 503 (7476), 335-337. DOI:

Sobre el autor: Antonio Martínez Ron es periodista

18 comentarios

  • Avatar de Jon Irazusta

    Es la segunda vez que lo leo y El octavo consejo, aunque cierto, da lugar a engaños. Hay que tener en cuenta en que condiciones se hacen los análisis médicos: síntomas, factores de riesgo, predisposición, etc. En estos casos, la probabilidad de tener la enfermedad es mayor. Es decir, si un test clínico validado te da positivo, con gran posibilidad estará en lo cierto.

    • Avatar de gonzalo

      HOLA.ESTO QUE DICES NO ES CIERTO.ES MUY IMPORTANTE LA INCIDENCIA DE LA ENFERMEDAD EN LA POBLACION.CON EL TEOREMA DE BAYES SE ENTIENDE PERFECTAMENTE.

  • Avatar de Km 130

    Yo añadiría que la asociación significativamente estadística de dos fenómenos no implica causalidad de uno sobre otro. Esto si no es en rigor uno de los errores más frecuentes en artículos científicos, si lo es cuando los resultados de un estudio se publican en prensa. Estamos acostumbrados a leer titulares como: «Ir en ambulancia provoca accidentes cardiovasculares. Según un estudio de prestigiosos investigadores de la Universidad de Littlebighorne publicado en la revista Journal of Invented Experiments and False Results, se ha demostrado que una gran proporción de los pacientes trasladados en ambulancia padecen infartos en comparación con una población control de personas tumbadas en la playa». Estamos hartos de leer noticias del tipo Comer X produce Y y cosas así. Estos artículos provocan en la población corrientes de opinión que increíblemente son apoyadas y seguidas. Convendría advertir de que si dos variables están asociadas una puede ser causa de la otra, la otra de la una o las dos tener una causa común, u otras hipótesis. Vamos, aplicar el método científico de toda la vida

  • Avatar de Eva

    Mucho cuidado con el cuarto consejo. Para ilustrar, hablemos de sexo !-). En el informe Hite, famoso en su momento y rompedor por los resultados sobre la insatisfacción sexual de las mujeres, la muestra era de 4.500 encuestas mas o menos. Es un tamaño grande. Pero, lo que sucede es que se mandaron 100.000 solo respondieron alrededor del 4,5%. Es decir, el hecho de responder a la encuesta no era inocuo. Así que, mejor muestras grandes, sí, pero solo si podemos garantizar que el muestreo está hecho con garantías de representatividad de la población de la que se quiere inferir algo.

    http://www.elgeometra.com.ar/estadistica/Lohr%20CENS.pdf

  • Avatar de Gregorio

    Me resulta, por demás, interesante esta valiosa ayuda para poder continuar con mi preferencia de leer artículos especializados (aunque no soy especialista en ninguna disciplina). Sin embargo me gustaría compartir mis inquietudes al leer estos valiosos 20 consejos para interpretar afirmaciones científicas, con el objeto de lograrlas entender mejor y mantenerlas como una guía de ayuda.
    En el cuarto consejo se refieren a una muestra grande para la mejor obtención y confiabilidad de los resultado, pero, no se debe dejar de destacar (según mi criterio) que toda muestra se debe ajustar adecuadamente a su estudio particular, señalando, a demás , que el exceso de información es tan nocivo como la falta de información.
    En el consejo ocho se pone de manifiesto que si un análisis de sangre detecta una enfermedad con un acierto del 99% significa, según lo que tengo por entendido, que todo quien se realice el mismo análisis tendrá una probabilidad del 99% de no tener la enfermedad que el análisis detecte y todos los que se realicen el análisis tendrán un 1% de probabilidad de tener la enfermedad. Claro esta, que aquellos quienes caigan en el 1% estarán sujetos a nuevos análisis, cosa que al otro grupo no le corresponderá. Podría resultar que un segundo análisis no resulte positivo, tan solo porque el caer en el 1% no garantiza que se tenga la afección y el que se tenga abre un abanico de posibilidades para conseguir la causa de la misma, causas que pueden ser tan variadas como las que intervienen en el resbalarse en la bañera.

    • Avatar de Alberto Perez

      Me temo que cuando dices que el exceso de información puede ser tan nocivo como la falta de ella, estás en un error. Mientras más información se tenga en un experimento científico, uno se aproxima más y más a la realidad. Lo peligroso en un experimento científico es extrapolar conclusiones a partir de bases de datos pequeñas y sesgadas, no lo contrario.

      • Avatar de Tom Wood Gonzalez

        No creo que Jorge Soro tuviera más información que los gobiernos, “sus reservas federales”, sus agencias de espionajes y sus miles de analistas. Y mucho menos creo, que tuviera la capacidad de procesar más información que todos esos aparatos juntos. Sin embargo, el solo, su cerebro, logró prever, darse cuenta de la crisis que se avecinaba, lo que no lograron millones de personas, ni miles de experimentados y calificados especialistas. Tampoco creo que Faraday tuviera la preparación suficiente, para tener más información físicas que muchos de sus contemporáneos. Sin embargo, llegó a ser el pilar de de la física del siglo 18. Yo creo que la clave esta en como tu cerebro relaciona y optimiza la información que tiene.

    • Avatar de Francisco Javier Martín

      No has entendido correctamente el ejemplo del consejo ocho. La clave radica en que considera una enfermedad de muy baja prevalencia (muy pocas personas la padecen, solo 5 de cada 10000), de tal modo que la probabilidad de tener la enfermedad en caso de dar positivo, en general es inferior a la probabilidad de error del diagnóstico, porque hay muchos más errores de diagnóstico que personas que sufren esa enfermedad. Pero dicha probabilidad variará en función de la sintomatología y de las circunstancias concretas de cada caso (la predisposición genética o la exposición al peligro).

  • Avatar de Tom Wood Gonzalez

    “18. La confluencia de factores cambia los riesgos. Se pueden calcular los riesgos que tienen hechos independientes, pero en ocasiones puede ocurrir que los riesgos evaluados no sean realmente independientes y el riesgo real sea mucho mayor . Con que se desate el primer factor aumenta la posibilidad de que confluyan los otros y crece el riesgo. En el colapso de las hipotecas basura en EEUU se dio un caso claro de un cálculo erróneo de la independencia de los riesgos de las hipotecas individuales.”

    Es el más impresionante, al menos a mi fue el que más me impacto; fue ejemplarizante. Porque lo demás, de una forma u otra, ya había ocurrido, existían múltiples variantes, ejemplos y hasta estaban didactización.
    Ahora si tienes un fenómeno que marcha bien dentro de los parámetros históricamente establecidos. Y dices; voy a hacer modelaciones de lógica formal, matematicas, y ver que me dicen. Y ves que la matemática te dice: puedes correr riesgos calibrados. Pero como tu eres desconfiado; dices los voy a correr: pero además como soy un científico de experiencia, que no confío ni en mi madre, los voy asegurar por si fracaso. Y aun asi, a todos nos jodieron.
    Aqui les dejo el concejo 21:
    Y ahi esta el problema, la lógica formal, la matemática es un constructo vacío y sin lógica; sin las demás informaciones lógicas no formales o que no se pueden matematizar. Y eso es la gran diferencia entre las ciencias empíricas y las matemáticas (en mi caso, entre la física y la metafísica-matemática). Y lo que no acaban de entender las personas de pensamiento dogmático o tecnócrata; es que las matemáticas, las que sean; son unas rameras promiscuas y seductoras que se pueden moldear a cualquier recipiente que queramos que las contenga.
    Las personas deberían entender de una vez, que son las matemáticas y cómo utilizarlas correctamente. No porque expliques tus tesis matemáticamente, necesariamente tiene tu razón más balance, veracidad, o rendimientos explicativos. No, a la matemática hay que ponerle sentido común, para que se acerque a la complejidad y subjetividad que está presente en todo lo que tocamos los humanos. De lo contrario no tardarán en aparecer las paradojas. Y cuando el experimento lógico es a nivel social; los desastres de deshumanización serán horribles. Bueno no es ni agradable recordárselo a un espanol.
    Porque nadie (excepto Zoro)
    http://www.reporteindigo.com/indigonomics/george-soros-el-temido-financiero
    http://es.wikipedia.org/wiki/George_Soros
    introdujo variables no formalizables, no matematizables, en las primas de riesgo, y se dio cuenta que todo se iría de control y afectaría a la gente solvente? Ah, porque para muchos iluminados, lo que digan las matemáticas, es sagrado. Y como ellos son los que más saben y tienen la responsabilidad de orientar al populacho; el populacho los sigue ciegamente en todo. Total; los iluminados no se equivocan nunca, para eso usan las las sacrosantas matemáticas de alto calibre, que la gente común, no suenan con entender jamás.
    Y muchos dicen irónicamente; que desde que dejaron entrar a los metafísicos-matemáticos a Wall Street, su realidad se ha vuelto paradójica. Mi consejo es: cuídense de la matemática; si no lleva acompañada una buena dosis de sentido común.
    Vean ejemplos de qué clase de ramera tecnócrata, es la matemática; si no le pones sentido común humano.
    Comencemos por el mismísimo César:
    http://jmmulet.naukas.com/2013/11/18/argumentos-cristianos-favor-del-aborto/#comment-43
    http://es.wikipedia.org/wiki/Prima_de_riesgo
    http://cuentos-cuanticos.com/2013/10/28/teorema-de-godel/#more-6075
    http://cuentos-cuanticos.com/2013/11/02/pikachu-existe-y-puedo-demostralo/
    http://francis.naukas.com/2013/11/03/la-demostracion-de-godel-de-la-existencia-de-dios/
    http://www.europapress.es/internacional/noticia-alcalde-londres-dice-igualdad-economica-no-posible-porque-hay-personas-demasiado-estupidas-20131128141015.html
    http://francis.naukas.com/2013/12/02/francis-en-trendingciencia-la-realidad-esta-hecha-de-campos-de-particulas/
    http://edocet.naukas.com/2013/11/22/quarks-entrelazados-traves-de-un-agujero-de-gusano/#comment-69
    http://naukas.com/2013/12/05/encuentro-en-directo-la-particula-de-higgs-y-el-misterio-de-la-masa/#comment-138781

    • Avatar de Tom Wood Gonzalez

      «Comencemos por el mismísimo César:»
      http://jmmulet.naukas.com/2013/11/18/argumentos-cristianos-favor-del-aborto/#comment-43
      Incidentalmente, soy de la opinión de que la mejor crítica que se puede hacer a las posiciones cristianas en contra del aborto se basa en las incongruencias lógicas que surgen del hecho de afirmar que Dios crea de forma inmediata el alma en el momento de la concepción (se llaman pro-vida, pero no están a favor de la “vida” en sí, sino de su definición de persona humana, a saber, alma+cuerpo).

      Un ejemplo (se pueden crear cientos) un pelín jesuita:
      Asumamos que yo domino las técnicas de fecundación “in vitro” y puedo crear embriones a mi antojo.
      – Dado que:

      a) Yo (según la mayoría de las denominaciones cristianas) tengo libre albedrío
      b) Dios es omnipotente, es decir, nada fuera de él puede llevarle a actuar
      c) Dios crea inmediatamente el alma en el momento de la fecundación

      – Por lo tanto: Cuando “yo” quiero, al crear un embrión, hago que un ser omnipotente “actúe”. Pero esto es absurdo, de donde se deduce que:

      a) Yo no tengo libre albedrío (y no soy moralmente responsable)
      b) Dios no es omnipotente
      c) Dios no crea el alma inmediatamente después de la fecundación (y la posición en contra del aborto deja de tener soporte)

  • Avatar de Fernando Blanco

    Creo que tengo un problema con el punto 4, «Cuanto más grande es la muestra, mejor». Y que alguien me corrija si me equivoco.

    Pienso que esto es cierto casi siempre. Cuando usamos la estadística «tradicional», basada en el test de significación frente a la hipótesis nula (o sea, todo lo que produzca como resultado un p-valor), la tasa de falsas alarmas se incrementa con el tamaño muestral.
    O sea, dadme una muestra de 1 millón de puntos de datos y os demostraré cómo cualquier tendencia sin sentido, sin importancia y minúscula que haya en los datos será estadísticamente significativa, p < 0.05. Por supuesto que hay técnicas para mantener a raya esta tasa de error, pero me temo que no siempre se utilizan (en esta lista ni siquiera se habla de mirar los tamaños del efecto, ni de intervalos de confianza, pero sí se habla del engañoso p-valor, además indicando que cuanto más bajo, mejor).

    En la mayoría de ocasiones, es mejor tener una muestra razonablemente grande y además representativa de la población (cosa que no se menciona en este punto) que una muestra simplemente inmensa.

    Aquí tenéis alguna explicación más detallada, simulaciones incluidas:
    «Large Samples: Too Much of a Good Thing?»

    Es mi argumento para decir que el punto 4 incluye una pequeña sobresimplificación que, en algunas ciencias como la epidemiología o la psicología, puede llevar a errores. No siempre más grande es mejor.

    Por si acaso, para que no se me malinterprete, aclaro que una muestra demasiado pequeña (por ej., N=5) siempre va a ser peor que una muestra grande (N=100). Lo que advierto es el peligro de las muestras demasiado grandes (N=1.000.000) con cierto tipo de técnicas estadísticas (las tradicionales) y sin aplicar correcciones.

    Como he dicho: si me equivoco, que alguien me corrija, estaré encantado de leer por qué 😉

    • Avatar de Manuel Mejía

      Según tengo entendido, a mayor tamaño de la muestra, es más probable encontrar un valor p significativo, siempre y cuando la diferencia exista. Es decir, lo que se incrementa con el tamaño de la muestra es el poder estadístico (si mantienes igual el valor alfa, error tipo 1).

      Si no existe diferencia entre los datos (por ejemplo, grupo control vs grupo experimental), el incrementar el tamaño de la muestra no significa que será más probable que los datos se hagan significativos, porque a mayor tamaño de muestra, la diferencia entre las medias de ambos grupos se irá haciendo más pequeña.

  • Avatar de zetetic

    Nuevamente refuerza la tesis de que en nature la influencia del seudoescepticismo está presente. Algunos comentarios:

    Es obvio que este listado son los típicos argumentos que usan los seudoescépticos (incluyendo científicos afiliados), lo más contradictorio es hacer alusión a Ben Goldacre siendo un libro de divulgación que de hecho comete el error de cherry picking para el caso de la homeopatía.

    Otro error es pensar que sólo existen los falsos positivos sin tomar en cuenta los falsos negativos.

    Según el punto 11 no hay que buscar seudoreplicaciones aunque de hecho sea lo que mas frecuentemente se encuentra en la literatura seudoescéptica y sus diseños experimentales rozan la gracia, la bufonada y la chistera (dirían los seudoescépticos). El caso más patente son los intentos de seudoreplicación del caso de la «memoria del agua», basta con ver el informe Maddox que toman en cuenta 3 de los 7 experimentos, y con un buen cherry picking toman aquellos que les conviene que son 3, negando el 4 incluso con la modificación que hicieran del protocolo (seudoreplicación) , o que tal el fraude en el programa Horizon que se esgrime como una prueba en contra de la «memoria del agua»:

    http://explicandoalexplicador.blogspot.mx/2013/08/homeopatia-xiv-horizon-ii.html

    Ni más ni menos, confirma que el seudoescepticismo es en el discurso un ejemplo de ética, pero en la práctica justifica desde experimentos basura, sabotaje y fraude.

    • Avatar de Roberto Pulento

      Hola, amigo: vengo del futuro (concretamente de año 2019, es decir casi 6 años después de tu comentario). Creo que aún estás a tiempo de salvarte. No sucederán muchas cosas en tu vida. Serán años largos y perdidos, «long and wasted years», como dice la canción. Nada bueno vendrá de tu cruzada solitaria (y será más solitaria con los años). Puedes ahorrarte esto y dedicarte a otra cosa. Yo creo que tienes potencial. Toda esa pasión podrías usarla en algo constructivo. En el futuro en el que estoy, la homeopatía ha perdido terreno. No ha sucedido el «inicio de una nueva era», como algún ingenuo ha proclamado. Ni los «pseudoescépticos» han caído. Sálvate, sálvate ahora que es tiempo. Me despido deseándote una vida larga y próspera. Sueño con un mundo donde tú y Daniel Galarza puedan ser amigos, bebiendo un tequilita. ¿Sale? Saludos cordiales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.Los campos obligatorios están marcados con *