En la entrada anterior vimos dos test estadísticos para contrastar la hipótesis de normalidad en el entorno de R: el test K-S y el test de S-W. Puedes hacer clic en el siguiente botón para acceder a dicha entrada y recordar el procedimiento.
La normalidad de los datos de una muestra también se puede estudiar de manera visual. Uno de los gráficos que se suelen usar para ello es el conocido como diagrama de caja y bigotes o simplemente box plot (García-Pérez, 2015). Este diagrama es muy fácil de generar en R y puede ser un buen complemento a los test de normalidad.
Caso práctico
Se ha estudiado la nieve acumulada (en cm) en varios pueblos de la Serranía Conquense: 24,9; 16,6; 26,4; 25; 19,3; 16,3; 15,7; 24,4; 19; 19,9; 9,9 y 17,4. Se desea analizar el supuesto de normalidad de manera visual a través de un box plot.
Para este ejemplo, se empleará directamente el entorno R (versión 4.4.2) en un ordenador Lenovo YB1-X91F (con sistema operativo Windows 10). Este mismo proceso se puede hacer en un ordenador Mac. Además, este mismo ejemplo se puede hacer, si se prefiere, en la aplicación RStudio. Como los datos son tan pocos, se introducirán directamente en una variable vectorial con el nombre nieve.
Procedimiento
En primer lugar, se introducirán los datos en modo de variable vectorial. El nombre que se ha propuesto para este caso práctico es nieve y los datos seguirán el orden del enunciado. Téngase en cuenta que la separación de los valores debe ir con comas y la separación decimal con puntos.
> nieve = c(24,9, 16.6, 26.4, 25, 19.3, 16.3, 15.7, 24.4, 19, 19.9, 9.9, 17.4)
Ahora, con tan solo invocar el nombre "nieve", R nos lanzará los valores introducidos en dicha variable vectorial.
Para solicitar el diagrama box plot, se empleará la función boxplot (...). Ahora debemos especificar la variable objeto de estudio que contiene los datos dependientes y la función col = seguido de un número que corresponde con un color. El código numérico con el color se muestra en la siguiente imagen. Para este ejemplo, la función quedará:
> boxplot (nieve, col = 4)
Resultados e interpretación
En una ventana nueva, a parte de la consola de R, saldrá el diagrama de caja con el color seleccionado. De esta forma se puede analizar visualmente si estos datos proceden de una distribución normal. No es objeto de esta entrada explicar la forma de interpretar este diagrama. Sin embargo, se puede decir que hay que ver que el diagrama sea lo más asimétrico posible (que significará que será lo más cercano a una distribución normal). A diferencia de los histogramas, que se requiere al menos un tamaño muestral de más de 30 sujetos o elementos para que sea válida su interpretación, los diagramas de cajas se pueden efectuar con muy poca muestra (Rodríguez, 2024).
- Para este ejemplo, podemos concluir que no deberíamos atrevernos a tomar una decisión de normalidad ya que el diagrama puede ser asimétrico. Por tanto, se precisaría efectuar el test de S-W para confirmar que los datos de esta variable no siguen una distribución normal.
Fuente bibliográfica
Referencia en estilo APA-7:
- García-Pérez, A. (2015). La interpretación de los dato: una introducción a la Estadística Aplicada. Librería UNED.
- Rodríguez, M. (2024). Interpretación de los gráficos de caja en el análisis descriptivo e inferencial. Recuperado de www.qvision.es.
Seguir aprendiendo
En realidad, los box plot sirven principalmente para analizar visualmente la homocedasticidad. En la siguiente entrada veremos cómo poder hacer un diagrama de cajas cuando tenemos dos grupos; es decir, una misma variable dependiente en dos grupos. Puedes hacer clic en el siguiente botón para acceder a mencionado contenido:
Jacob Sierra Díaz y Alti
No hay comentarios:
Publicar un comentario