Análisis de datos

Función	Significado
`summary(data)`	Resumen estadístico
`min(data)`	Mínimo
`max(data)`	Máximo
`mean(data)`	Media aritmética
`median(data)`	Mediana
`range(data)`	Rango
`sd(data)`	Desviación estándar
`var(data)`	Varianza
`cov(data)`	Covarianza
`cor(data)`	Coeficiente de correlación
`quantile(data, 0.05)`	Percentil del 5%
`quantile(data, 0.80)`	Percentil del 80%
`skewness(data)`	Asimetría
`kurtosis(data)`	Curtosis

Cargar datos:

datos = read.csv("Datos.csv", sep = ";", dec = ",", header = T)
datos

A data.frame: 8 × 5
Nombre	Edad	Género	Peso	Estrato
<fct>	<int>	<fct>	<dbl>	<int>
Ángela	22	F	62.5	3
José	10	M	75.8	4
Juan	15	M	54.4	3
Manuela	35	F	73.6	3
Maribel	50	F	70.0	5
Antonio	45	M	180.0	4
Alicia	1	F	15.7	1
Luis	32	M	103.5	5

summary:

summary(datos$Peso)

 Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
15.70   60.48   71.80   79.44   82.72  180.00

La función basicStats()calcula más estadíticos que summary().

Primero se instala el siguiente paquete: install.packages("fBasics")

library(fBasics)

Loading required package: timeDate

Loading required package: timeSeries

print(basicStats(datos$Peso))

            X..datos.Peso
nobs             8.000000
NAs              0.000000
Minimum         15.700000
Maximum        180.000000
1. Quartile     60.475000
3. Quartile     82.725000
Mean            79.437500
Median          71.800000
Sum            635.500000
SE Mean         16.799457
LCL Mean        39.713096
UCL Mean       119.161904
Variance      2257.774107
Stdev           47.516041
Skewness         0.874260
Kurtosis        -0.067399

Medidas de tendencia central:

Media.
Mediana.
Moda.

# Media:

mean(datos$Peso)

79.4375

# Mediana:

median(datos$Peso)

71.8

La moda es el valor que más se repite, es decir, el de mayor frecuencia.

Con la función table() se calculan las frecuencias.

table(datos$Estrato)

1 3 4 5
1 3 2 2

El Estrato 3 es el de mayor frecuencia. Esta es la moda, entonces la moda es el máximo de las frecuencias.

moda <- max(table(datos$Estrato))
moda

3

Medidas de dispersión:

Rango.
Varianza.
Desviación estándar.
Coeficiente de variación.

# Rango:

range(datos$Peso)

15.7
180

# Varianza:

var(datos$Peso)

2257.77410714286

# Desviación estándar:

sd(datos$Peso)

47.5160405246782

# Desviación estándar:

sqrt(var(datos$Peso))

47.5160405246782

\[coeficienteVariación = \frac{DesviaciónEstándar}{Media}\]

# Coeficiente de variación:

coef_var <- sd(datos$Peso)/mean(datos$Peso)
coef_var

0.598156292993588

Medidas de posición:

Cuartiles:

Los diagramas de cajas y bigotes es una forma visual de analizar las medidas de posición.

# Cuartiles.

print(quantile(datos$Peso))

    0%     25%     50%     75%    100%
15.700  60.475  71.800  82.725 180.000

# Q1 - primer cuartil - percentil del 25%:

quantile(datos$Peso, 0.25)

25%: 60.475

# Q2 - segundo cuartil - percentil del 50%:

quantile(datos$Peso, 0.50)   # Este es el valor de la mediana.

50%: 71.8

# Q3 - tercer cuartil - percentil del 75%:

quantile(datos$Peso, 0.75)

75%: 82.725

Rango intercuatil (RIC):

\[RIC = Q_3 - Q_1\]

RIC = quantile(datos$Peso, 0.75) - quantile(datos$Peso, 0.25)
RIC  # Rango de un 50%

75%: 22.25

RIC = as.numeric(RIC) # para quitarle la etiqueta de 75%
RIC

22.25

Medidas de forma:

Sesgo (asimetría): skewness.
Curtosis: kurtosis.

Asimetría

Curtosis

# Asimetría:

skewness(datos$Peso) # Resultados: sesgo positivo.

0.874260494208836

# Curtosis:

kurtosis(datos$Peso) # Resultado: platicúrtica.

-0.0673990420899138