Esa amarga lamentación debieron exclamar los nacidos bajo el signo zodiacal de géminis que leyeron el análisis de subgrupos del estudio ISIS-2 que demostraba ausencia de efecto de la aspirina frente a placebo tras un infarto agudo de miocardio, en los pacientes pertenecientes a los signos zodiacales de Libra y Géminis y una diferencia estadísticamente significativa con respecto a los que pertenecían a cualquiera de los otros signos. ¿Tendría sentido que los medicamentos fueran más o menos eficaces en los pacientes en función de su signo del zodíaco? Aparentemente la medicina personalizada no llega hasta ese extremo y, sin embargo, algún estudio, como hemos visto, puede llegar a demostrarlo. Este famoso caso fue conducido deliberadamente por los autores para demostrar lo absurdo que resultaba la excesiva demanda de análisis de subgrupos que les pedían los editores de la revista.
Sin embargo, ¿qué ocurre cuando nos presentan diferencias en los resultados de un estudio en función de características de la población más plausibles?
Es fácil encontrarlos en casi todos los ensayos clínicos, a pesar de que existen varios ejemplos de hallazgos encontrados en análisis de subgrupos que finalmente fueron erróneos. Por este motivo, hay que interpretarlos con prudencia, sin considerarlos resultados concluyentes y asignándoles el valor de una mera hipótesis. Las principales limitaciones que presentan son la falta de potencia estadística −ya que el tamaño muestral está calculado para encontrar diferencias en la variable principal y no para obtener resultados definitivos en los análisis de subgrupos− y el riesgo de realizar un número abusivo de comparaciones o de no definirlas a priori, sino cuando ya se han obtenido los datos del estudio. Cuantos más subgrupos se realicen en una misma muestra, más probabilidades de que al menos uno de ellos resulte significativo por puro azar (con el habitual nivel de significación estadística del 0,05, al hacer un análisis con 10 subgrupos existe una probabilidad del 40% de obtener un resultado significativo sólo por azar).
No todos los análisis de subgrupos son iguales y ya desde los años 90 se han elaborado herramientas, que posteriormente se han actualizado, para ayudarnos a diferenciar entre los que pueden aportar información relevante y los que pueden generar errores e inducir a decisiones que potencialmente podrían perjudicar a los pacientes. Los criterios que hay que valorar para establecer nuestra confianza en los resultados de los análisis de subgrupos se muestran en la siguiente tabla:
Merece la pena resaltar la importancia de que los estudios aporten las pruebas estadísticas adecuadas para descartar el azar como causa de las diferencias encontradas entre los subgrupos, los denominados test de interacción. Estos test nos indican si se puede considerar significativo el cambio en la magnitud del efecto entre los subgrupos. Así, cuanto menor sea la p de interacción, menor probabilidad hay de que el efecto diferencial entre grupos sea debido al azar.
Existe un consenso entre los expertos en interpretar con cautela los resultados provenientes de análisis de subgrupos. Pueden resultar engañosos y provocar el abandono de tratamientos eficaces o fomentar otros inefectivos o incluso dañinos. Se puede mantener que podemos tener más confianza en los resultados de los análisis de subgrupos cuando: son preespecificados, se muestran todos los realizados, la p de interacción es significativa y existe plausibilidad biológica. La mayoría de los análisis de subgrupos tienden a exagerar la realidad y en la mayoría de los casos deberían ser vistos únicamente como una fuente de generación de hipótesis.
Por todo lo comentado, cuando se vean resultados positivos extraídos de un análisis de subgrupos en las conclusiones del resumen de un artículo, sobre todo cuando el resultado global del estudio haya sido negativo… mejor extremar la cautela antes de llevar a la práctica las recomendaciones derivadas de sus hallazgos.
Entrada elaborada por José Manuel Izquierdo Palomares