Análisis de datos
Función |
Significado |
---|---|
|
Resumen estadístico |
|
Mínimo |
|
Máximo |
|
Media aritmética |
|
Mediana |
|
Rango |
|
Desviación estándar |
|
Varianza |
|
Covarianza |
|
Coeficiente de correlación |
|
Percentil del 5% |
|
Percentil del 80% |
|
Asimetría |
|
Curtosis |
Cargar datos:
datos = read.csv("Datos.csv", sep = ";", dec = ",", header = T)
datos
Nombre | Edad | Género | Peso | Estrato |
---|---|---|---|---|
<fct> | <int> | <fct> | <dbl> | <int> |
Ángela | 22 | F | 62.5 | 3 |
José | 10 | M | 75.8 | 4 |
Juan | 15 | M | 54.4 | 3 |
Manuela | 35 | F | 73.6 | 3 |
Maribel | 50 | F | 70.0 | 5 |
Antonio | 45 | M | 180.0 | 4 |
Alicia | 1 | F | 15.7 | 1 |
Luis | 32 | M | 103.5 | 5 |
summary:
summary(datos$Peso)
Min. 1st Qu. Median Mean 3rd Qu. Max.
15.70 60.48 71.80 79.44 82.72 180.00
La función basicStats()
calcula más estadíticos que summary()
.
Primero se instala el siguiente paquete: install.packages("fBasics")
library(fBasics)
Loading required package: timeDate
Loading required package: timeSeries
print(basicStats(datos$Peso))
X..datos.Peso
nobs 8.000000
NAs 0.000000
Minimum 15.700000
Maximum 180.000000
1. Quartile 60.475000
3. Quartile 82.725000
Mean 79.437500
Median 71.800000
Sum 635.500000
SE Mean 16.799457
LCL Mean 39.713096
UCL Mean 119.161904
Variance 2257.774107
Stdev 47.516041
Skewness 0.874260
Kurtosis -0.067399
Medidas de tendencia central:
Media.
Mediana.
Moda.
# Media:
mean(datos$Peso)
# Mediana:
median(datos$Peso)
La moda es el valor que más se repite, es decir, el de mayor frecuencia.
Con la función table()
se calculan las frecuencias.
table(datos$Estrato)
1 3 4 5
1 3 2 2
El Estrato 3 es el de mayor frecuencia. Esta es la moda, entonces la moda es el máximo de las frecuencias.
moda <- max(table(datos$Estrato))
moda
Medidas de dispersión:
Rango.
Varianza.
Desviación estándar.
Coeficiente de variación.
# Rango:
range(datos$Peso)
- 15.7
- 180
# Varianza:
var(datos$Peso)
# Desviación estándar:
sd(datos$Peso)
# Desviación estándar:
sqrt(var(datos$Peso))
# Coeficiente de variación:
coef_var <- sd(datos$Peso)/mean(datos$Peso)
coef_var
Medidas de posición:
Cuartiles:
Los diagramas de cajas y bigotes es una forma visual de analizar las medidas de posición.
# Cuartiles.
print(quantile(datos$Peso))
0% 25% 50% 75% 100%
15.700 60.475 71.800 82.725 180.000
# Q1 - primer cuartil - percentil del 25%:
quantile(datos$Peso, 0.25)
# Q2 - segundo cuartil - percentil del 50%:
quantile(datos$Peso, 0.50) # Este es el valor de la mediana.
# Q3 - tercer cuartil - percentil del 75%:
quantile(datos$Peso, 0.75)
Rango intercuatil (RIC):
RIC = quantile(datos$Peso, 0.75) - quantile(datos$Peso, 0.25)
RIC # Rango de un 50%
RIC = as.numeric(RIC) # para quitarle la etiqueta de 75%
RIC