martes, 5 de noviembre de 2024

R - Estadística | Test estadísticos básicos de normalidad

Existen dos test principales para contrastar la normalidad de una muestra de datos: el test de Kolmogorov-Smirnov (test K-S) y el test de Shapiro-Wilk (test S-W). El primero de los citados se emplea para tamaños muestrales (n) grandes; algunos autores y manuales sitúan esta cifra entorno a los 50 participantes. No obstante, sin ánimo de entrar en detalles aquí, el test de Shapiro-Wilk es el más potente de los dos para detectar la no normalidad de los datos (García-Pérez, 2015). De hecho, este segundo test se suele emplear en muestras reducidas. 

Aquí es el investigador o el analista de datos el que deberá decidir qué test quiere emplear. En muchas ocasiones, se suelen ejecutar los dos y corroborar que los p-valores sean mayores o menores a 0,050. Hoy vamos a aprender a realizar este test en el entorno de R y para entenderlo mejor, usaremos un ejemplo ficticio.


Caso práctico

Doce participantes han realizado un test de esfuerzo físico que consistía en mantener una plancha el mayor tiempo posible (echándose en el suelo boca abajo, doblando los codos 90º y manteniendo la cabeza en línea recta con todo el cuerpo). Los resultados obtenidos han sido el tiempo en segundos y milisegundos que cada participante ha aguantado en plancha: 17,3; 8,3; 11; 7; 13,2; 12; 13,3; 15,2; 17,1; 18,4; 14,5 y 10,7. ¿Podemos aceptar la normalidad de esta muestra?

Para este ejemplo, se empleará directamente el entorno R (versión 4.4.2) en un ordenador Lenovo YB1-X91F (con sistema operativo Windows 10). Por supuesto, este mismo proceso se puede hacer en un ordenador Mac. Además, este mismo ejemplo se puede hacer, si se prefiere, en la aplicación RStudio. Como los datos son tan pocos, se introducirán directamente en una variable vectorial con el nombre esfuerzo.


Procedimiento

En primer lugar, se introducirán los datos en modo de variable vectorial. El nombre que se ha propuesto para este caso práctico es esfuerzo y los datos seguirán el orden del caso práctico. Téngase en cuenta que la separación de los valores debe ir con comas y la separación decimal con puntos.

> esfuerzo = c(17.3, 8.3, 11, 7, 13.2, 12.0, 13.3, 15.2, 17.1, 18.4, 14.5, 10.7)


Ahora, con tan solo invocar el nombre "esfuezo", R nos lanzará los valores introducidos en dicha variable vectorial. 

En primer lugar, solicitaremos el test de Kolmogorov-Smirnov con la función ks.test (...). Ahora debemos especificar la variable objeto de estudio que contiene los datos dependientes y las instrucciones "pnorm", seguido de mean (...) y sd (...) en el que pondremos también los nombres de la variable objeto de estudio. Por tanto, la función de este test debe quedar de la siguiente forma:

> stem (esfuerzo, "pnorm", mean (esfuerzo), sd (esfuezo))


Para solicitar el test de Shapiro-Wilk simplemente usaremos la función shapiro.test (...). Aquí, a diferencia del otro test, solo tendremos que especificar el nombre de nuestra variable objeto de análisis. En este caso:

> shapiro.test (esfuerzo)


Resultados

Cada vez que ejecutemos (con la tecla Intro) una función, saldrán los resultados. En ambos tests, veremos el nombre de la prueba, el nombre de la variable objeto de estudio, el estadístico D (para el test de K-S) o el W (para el test S-W) y el p-valor. Es el p-valor lo que nos interesará analizar.
  • Cuando el p-valor de ambos test sea mayor de 0,050 podemos asumir que la muestra procede de una distribución normal. Por tanto, un valor mayor de 0,050 será lo deseable en este caso (ya que de esta forma se puede continuar efectuando pruebas estadísticas más potentes).


En este ejemplo, se ha decidido hacer los dos test. Se puede observar en la imagen superior que los p-valores de ambas pruebas son distintos. En concreto, el test de S-W es mucho más restrictivo a la hora de asegurar una distribución normal (observando que el p-valor es más bajo). No obstante, para este ejemplo se puede concluir que la muestra de doce participantes procede de una distribución normal ya que ambas pruebas apuntan al mismo resultado de la hipótesis; en otras palabras, ambar pruebas mantienen la hipótesis nula.


Fuente bibliográfica

Referencia en estilo APA-7: 
  • García-Pérez, A. (2015). La interpretación de los dato: una introducción a la Estadística Aplicada. Librería UNED.

Seguir aprendiendo

En la siguiente entrada veremos un complemento a este análisis. Haz clic en el siguiente botón para acceder a cómo hacer en el entorno de R un diagrama de caja (box plot en inglés):



Jacob Sierra Díaz y Alti

No hay comentarios:

Publicar un comentario