Page 81 - Introducción a la Bioestadística con R
P. 81
prueba t, el error asumido será preocupante debido al alto número de repeticiones que tendrías que hacer. Por lo tanto, se necesita una alternativa. La ANOVA es un algoritmo que analiza la variabilidad de los datos en lugar de comparar directamente las medias de sus muestras. En resumen, la ANOVA compara la variabilidad entre grupos y la variabilidad dentro del grupo.
El funcionamiento de ANOVA es similar al de la prueba t, pero un poco más complejo. Veamos los pasos esenciales que se ejecutan en la ANOVA, de este modo podemos ver que no es una caja negra, si no que cuando lleguemos a ejecutar directamente el comando en el siguiente ejercicio lo que estamos haciendo en realidad es correr de manera automática una serie de pasos preestablecidos en R.
1. Primero formulamos la hipótesis nula, como en el caso anterior, nuestra hipótesis nula es que las medias de los grupos son las mismas. Es decir, que no hay diferencias significativas entre las medias.
2. Calcular las estadísticas de prueba en ANOVA es bastante complejo. Se llama estadística F y se calcula en diferentes pasos. Primero calculamos las variabilidades producidas por cada factor que nos dará las sumas de cuadrados (SS). Estos no se pueden comparar directamente, por lo tanto, necesitamos calcular la varianza real o los cuadrados medios (MS) debidos a cada factor. Esto se hace dividiendo cada SS por el número correcto de grados de libertad. ¡Pero no te preocupes, R hará todo eso por nosotros de manera automática!
3. A continuación tienes que calcular la probabilidad de significancia (p) usando los valores F, sus diferentes grados de libertad, y las tablas con la correspondencia entre ellos. Aunque puede hacerse de manera manual, el programa lo hará por nosotros.
4. Finalmente tienes que decidir si rechazas o no la hipótesis nula. Al igual que antes, si tu valor p es menor que 0.05 (o 0.01, o 0.001, según donde hayas fijado el umbral), podrás rechazar la hipótesis nula.
5. Prueba post-hoc. La utilizarás al final sólo si sus medias fueron significativamente diferentes y tienes más de dos niveles por factor. Esta es una prueba adicional que necesitamos para identificar de dónde provienen estas diferencias si hay más de un nivele en cada factor, por ejemplo, tres dietas como es nuestro caso (Adaptado de Ennos, 1999).
(2) Condiciones de la ANOVA.
Como en casos anteriores, hay una serie de supuestos que se deben tener en cuenta. A continuación, te los enumeramos brevemente:
1. Independencia de las muestras: las observaciones deben ser aleatorias y los grupos (niveles dentro de un mismo factor) deben de ser independientes entre sí.
2. Distribución normal: la variable cuantitativa (Y en nuestros comandos) debe distribuirse de manera normal en cada grupo. Si no se cumple esta condición, se puede recurrir a la prueba Kruskal-Wallis, si los datos se distribuyen de una manera no paramétrica ya que si se usa la ANOVA, los resultados podrían no ser válidos.
3. Homocedasticidad: la varianza debe de ser constante entre grupos. Cuanto menor sea el tamaño de grupo, más importante será esta condición.
Si el diseño es equilibrado, la ANOVA es bastante resistente a la falta de homocedasticidad y normalidad, pero si la anomalía es extrema es mejor recurrir a una prueba no paramétrico.
A continuación, vamos a ver un ejercicio sobre cómo hacer una ANOVA de una vía usando solamente R como asistente en el cálculo.
Introducción a la Bioestadística con R
77