lunes, 4 de noviembre de 2024

R - Estadística | Medidas de posición y dispersión

Uno de los conceptos más importantes de la rama de la Estadística Descriptiva es el de las medidas de tendencia central (también llamada medidas de posicionamiento o promedios) y las medidas de dispersión. Estas medidas son la base para análisis estadístico de los datos cuantitativos más complejos. Hoy vamos a ver las funciones básicas de cada uno de estos grupos.

Medidas de tendencia central

Este conjunto de medidas consisten en un valor que representa o resume un conjunto de datos. Por no hacer compleja esta entrada, aquí nos centraremos en dos de las más importantes: la media aritmética y la mediana. A continuación, se muestra una definición de cada una de estas medidas acompañadas con la función básica en el entorno R.



Por ejemplo, Mariano es un alumno de 2º de Educación Secundaria que ha sacado las siguientes calificaciones en el primer trimestre: Matemáticas = 5; Lengua Castellana = 9; Inglés = 7,8; Francés = 6,4; Tecnología = 7,5; Ciencias Sociales = 8; Ciencias de la Naturaleza = 4; Música = 8 y Plástica = 6,6. Para calcular su media aritmética en R deberemos crear una nueva variable vectorial con cada una de sus notas (con el nombre notas) y a continuación solicitar la función mean (notas). Se recuerda que la marca decimal debe ir en puntos y que la separación de valores va en comas.

> notas <- c(5, 9, 7.8, 6.4, 7.5, 8, 4, 8, 6.6)
> mean (notas)
[1] 6.922222


Para obtener la mediana de las calificaciones de Mariano, deberemos usar la función median (notas). Nótese que ya no se pone la variable vectorial nuevamente ya que se ha introducido anteriormente.

> median (notas)
[1] 7.5
 

Medidas de dispersión

Las medidas de tendencia central deben venir acompañadas siempre de alguna medida de dispersión. De manera general, las medidas de dispersión sirven para observar lo concentrado que están los datos entorno a alguna medida de posición (como, por ejemplo, una media). Aquí vamos a ver la varianza (o, mejor dicho, la cuasivarianza) y la desviación típica (o, mejor dicho, la cuasidesviación típica). A continuación, se muestra una imagen con una breve definición de ambas medidas:


En efecto, las funciones básicas de R para la varianza (var (...)) y la desviación típica (sd (x)) son en realidad el cálculo para la cuasivarianza y la cuasidesviación típica. Lo cierto es que si el tamaño muestral es grande, apenas hay diferencias entre la varianza y la cuasivairanza, y entre la desviación típica y la cuasidesviación típica (García-Pérez, 2015). Tal es así que muchos autores y manuales omiten el prefijo cuasi- y prefieren usar los nombres más conocidos.


Siguiendo con el ejemplo del alumno Mariano, se quiere calcular la cuasivarianza y la cuasidesvicación típica de sus notas del primer trimestre. Para ello, como ya hemos metido sus datos previamente, simplemente solicitaremos ambas medidas con las funciones descritas anteriormente:
En primer lugar la cuasivarianza: 
> var (notas)
[1] 2.544444

Y, a continuación, la cuasidesviación típica:
> sd (notas)
[1] 1.595131


Fuente bibliográfica

Referencia en estilo APA-7: 
  • García-Pérez, A. (2015). La interpretación de los dato: una introducción a la Estadístic Aplicada. Librería UNED.

Seguir aprendiendo

En la siguiente entrada veremos la manera en la que se realizan los test de contraste de hipótesis sobre la normalidad de los datos. Puedes acceder a la entrada haciendo clic en el siguiente botón:



Jacob Sierra Díaz y Alti

No hay comentarios:

Publicar un comentario