sábado, 2 de noviembre de 2024

R - Estadística | Histograma

Los histogramas pueden ser una forma adecuada de representar datos de tipo cuantitativo. Se trata de una representación de los datos en varios rectángulos con un área (altura si todos los rectángulos tienen la misma base) igual al del número de individuos identificado en el intervalo (García-Pérez, 2015).

En R se puede generar un histograma básico con la instrucción hist (...). Para entender mejor la generación de este diagrama, tal y como ya se realizó con el diagrama de sectores, emplearemos un ejemplo práctico.


Caso práctico

Una investigación ha medido los porcentajes de grasa corporal al inicio de un curso intensivo de resistencia aeróbica en los que participaron 23 hombres. Los datos (en %) de los participantes son los siguientes: 8,1; 8,3; 9,5;  21; 23,4; 15,9; 16,3; 9,3; 28; 28,4; 18,5; 10,0; 24,5; 25,6; 17,3; 18,8; 19,7; 24; 21,4; 22,2; 12; 12,4; 11,2. Se quiere elaborar un gráfico sobre estos datos para introducirlos en un informe del club deportivo.

Para este ejemplo, se empleará directamente el entorno R (versión 4.3.1) en un ordenador MacBook Pro (MacOS Ventura). Se recuerda que este mismo proceso se puede realizar en un ordenador con sistema operativo Windows. Además, este mismo ejemplo se puede hacer, si se prefiere, en la aplicación RStudio; opción que dará el mismo resultado. Como los datos son tan pocos, se introducirán directamente con el nombre grasa.


Procedimiento

En primer lugar, se introducirán los datos en modo de variable vectorial. El nombre que se ha propuesto para este caso práctico es grasa y los datos seguirán el orden del enunciado del caso práctico. Téngase en cuenta que la separación de los valores debe ir con comas y la separación decimal con puntos.

> grasa = c(8.1, 8.3, 9,5, 21, 23.4, 15.9, 16.3, 9.3, 28, 28.4, 18.5, 10, 24.5, 25.6, 17.3, 18.8, 19.7, 24)

Ahora, con tan solo invocar el nombre "grasa", R nos lanzará los valores introducidos en la variable vectorial. Para solicitar el histograma de estos datos, deberemos usar la instrucción hist (...). En nuestro caso, sustituiremos los tres puntos por el nombre de la variable introducida.

> hist (grasa)



Resultados

Una vez que se haya puesto la sintaxis descrita anteriormente y se haya pulsado Intro, se generará el histograma, tal y como se ha visto en la imagen anterior. Se recuerda que a partir de ahora, cada vez que se realice algún cambio en el histograma gráfico mediante la consola, se cambiará directamente en la ventana del gráfico.

Un histograma, aparecerá sin título y con los colores grises. Esto se puede personalizar con las siguientes instrucciones.
  • Título. Poner la instrucción main = "..." dentro del paréntesis de pie (...) separado con comas. Se debe recordar que cualquier tipo de texto debe ir entre comillas. Así, en este ejemplo:
        > hist (grasa, main = "Porcentaje de grasa corporal")

  • Color de los rectángulos. Cada rectángulo puede ir de un color distinto en función de un código numérico establecido por defecto. Lo único se se debe hacer es contar el número de intervalos que se han generado y por orden poner el código de color que queramos usar para cada uno de ellos. Para ello, podremos usar la instrucción col = c(código de color para cada rectángulo). Esta instrucción deberá ir integrada dentro de la sintaxis hist (...). Los códigos de colores se muestran en la siguiente ilustración. guiendo un patrón numérico (que se muestra en la siguiente imagen), se debe escribir en una nueva variable vectorial los colores deseados en el mismo orden en los que se han introducido los datos primarios. Luego, en el paréntesis de  se debe escribir la instrucción col = "..." .

Para el presente ejemplo hemos seleccionado los colores gris (8), amarillo (7), azul (4) y verde (3). Nótese que el segundo rectángulo no aparecerá coloreado ya que no hay ningún valor. Entonces, la función será: 

> hist (grasa, col = c(8,5,7,4,3))

  • Nombres al eje X y al eje Y. Con la instrucción xlab = "..." e ylab = "..." es posible poner un nombre a los ejes x e y respectivamente. Normalmente, en el eje X se representa los intervalos de la variable objeto de estudio (porcentaje de grasa en este caso) y en el eje Y la frencuencia. Se recuerda que cualquier letra debe ir entre comillas, cada instrucción se separa con comas y ambas instrucciones deben estar dentro de la función hist (...)
> hist (grasa, xlab = "Grasa", ylab = "Frecuencia")



Por supuesto que todo lo visto en los puntos anteriores se debe integrar en una única función hist (...)

> pie (datos, main = "[título]", col = c(código de colores), xlab = "[nombre del eje X]", ylab = "[nombre del eje Y]")



Para el presente ejemplo (véase el histograma de la imagen anterior) la sintaxis que debemos poner será:

> hist (grasa, main = "Porcentaje de grasa corporal", col = c(8, 5, 7, 4, 3), xlab = "Grasa", ylab = "Frecuencia")


Ahora solo quedaría copiar el histograma y pegarlo en el informe del club deportivo.


Fuente bibliográfica

Referencia en estilo APA-7: 
  • García-Pérez, A. (2015). La interpretación de los dato: una introducción a la Estadístic Aplicada. Librería UNED.

Seguir aprendiendo

En la siguiente entrada veremos otra forma de representar datos cuantitativos a través del diagrama de hojas y ramas. Puedes hace clic en el siguiente botón para acceder a dicho contenido:


Jacob Sierra Díaz y Alti

No hay comentarios:

Publicar un comentario