viernes, 10 de diciembre de 2010

OMNIPRESENTE VALOR "P"



¿Quién vive? Quien pesa y mide.
Con ésto, acudo presto al refranero castellano - a esa fuente de sabiduría popular o saber pragmático- con el ingenio del aforismo pero, más si cabe, con genio y ganas de dar una coz a la omnipresencia de la "p" en la literatura científica. Parece como si nos gratificara sobremanera aquel veredicto de lo "estadisticamente significativo", de hallar un valor "p < 0.05". La fascinación de la "p" es como estos espantapájaros de la Vega que ilustran el post, que nos proporciona una falsa impresión de objetividad.
Por otra parte, para inferir parámetros de una forma más descriptiva e informativa parece mejor solución recurrir a la "estimación por intervalo". Vámos, que es mejor medir (es lo que hacemos en la estimación por intervalo), que decidir (es lo que hacemos con el valor "p" en los test de hipótesis).

El valor "p" o significación estadística tiene que ver con la toma de una decisión: por ejemplo, rechazar la hipótesis nula (Ho) de no asociación o no diferencia entre los éxitos de un nuevo tratamiento frente a un tratamiento convencional.

Si la "p" o probabilidad de los datos obtenidos es alta (>5%) decidiremos no rechazar la conjetura de partida o hipótesis nula inicial -que decía que ambos tratamientos eran igualmente eficaces-. Consideraremos que habrá sido la variabilidad de los datos o el azar(a mayor número de muestra mas fácil es obtener valores significativos o valores de "p" pequeños) los responsables de las diferencias de éxito que hemos encontrado entre los dos tratamientos.

Por el contrario, si el valor "p" es <5%, concluiré en rechazar la hipótesis de partida por haber hallado resultados estadisticamente significativos; es decir, con una probabilidad pequeña de que la variabilidad de los datos o el azar del muestreo expliquen las diferencias en los éxitos de los dos tratamientos y, por lo tanto, aceptaremos que un tratamiento es más exitoso que el otro.

Pero no debemos olvidar dos riesgos de estas pruebas: que este criterio del 5% es convencional, pues significa que en 5 de cada 100 veces (error I o alfa) que repitiéramos el experimento, de haber actuado como hemos actuado, nos habríamos equivocado al rechazar la Ho cuando ésta realmente era verdadera. Pongamos un ejemplo: en los pasados mundiales de Sudáfrica el ya fallecido pulpo Paul -no sabemos si murió de éxito- acertó el resultado de 8 partidos del mundial seguidos. Como la probabilidad (binomial) de acertar 8 éxitos (quién ganaba entre dos equipos) de 8 eventos -lo mismo podía ser acertar cara o cruz en ocho lanzamientos- fue de 0.004, deberíamos rechazar la hipótesis nula -aquella en la que tan sólo acertaba en el 50% de las ocasiones- y aceptar una hipótesis alternativa (que algo había, o bien el pulpo era un adivino, o el dueño lo manipulaba, lo cual sería un sesgo en un estudio, o bien que fuera mera chiripa -error alfa-). De igual manmera que en Casablanca de Bogart siempre nos queda Paris, en ciencia siempre nos quedará la incertidumbre de una asociación.

Con los test de hipótesis o valor "p" o "significación estadística" también corremos otro riesgo: el error tipo II o falta de potencia del estudio. Consiste éste en no rechazar la Ho o conjetura inicial cuando en realidad fuera falsa.

Una cuestión primordial es no confundir lo "estadisticamente significativo" con lo clínicamente relevante, ya que esto último es definido a priori por el investigador.Así, mejor que decidir se propone medir un efecto, una tasa o razón de tasas presentando además del estimador puntual, que nos dice la magnitud de la asociación, un "intervalo de confianza" cuya amplitud dependerá de la variabilidad de los datos y del tamaño de la muestra y de la confianza o seguridad en ofrecer esa estimación (generalmente el 95%). Si repitiéramos indefinidamente el estudio, con una confianza del 95%, encontraremos el verdadero parámetro de la población que estamos estimando dentro del único intervalo de confianza que hemos calculado.

No hay comentarios:

Publicar un comentario