Taller Intervalos de Confianza y Pruebas de Hipótesis
Importar datos:
america=read.csv("america.csv", sep = ",", dec = ".")
asia=read.csv("asia.csv", sep = ",", dec = ".")
str(america)
str(asia)
'data.frame': 43 obs. of 3 variables:
$ X : int 14 16 18 20 22 36 58 64 80 82 ...
$ SALESORG : Factor w/ 1 level "AMER": 1 1 1 1 1 1 1 1 1 1 ...
$ NETAMOUNT: num 61392 18545 65825 24076 332 ...
'data.frame': 77 obs. of 3 variables:
$ X : int 5 7 9 17 23 27 31 37 41 43 ...
$ SALESORG : Factor w/ 1 level "EMEA": 1 1 1 1 1 1 1 1 1 1 ...
$ NETAMOUNT: num 62724 152239 111828 35605 6081 ...
Tamaño de muestras:
nx=nrow(america)
ny=nrow(asia)
alpha=0.05
p_alpha=qnorm(alpha) #probabilidad de la normal
Medias y desviaciones estándar:
media_x=mean(america$NETAMOUNT)
media_y=mean(asia$NETAMOUNT)
sd_x= sd(america$NETAMOUNT)
sd_y= sd(asia$NETAMOUNT)
QQ-plot:
qqplot(america$NETAMOUNT, asia$NETAMOUNT)
abline(0,1) # las muestras parecen provenir de la misma distribución,
# podemos asumirlas como normales
![../../_images/output_8_03.png](../../_images/output_8_03.png)
La función t.test
de la libreria stats
se utiliza para calcular
intervalos de confianza para la media y diferencia de medias, con
muestras independientes y pareadas.
Para una población:
print(t.test(x=america$NETAMOUNT, conf.level=0.95)$conf.int)
[1] 43338.84 65191.48
attr(,"conf.level")
[1] 0.95
Para la diferencia de medias:
Se requiere definir mínimo los siguientes argumentos: x
, y
,
paired=T
(si son datos pareados), paired= F
(si nos son
pareados)-
var.equal
: indica que las varianzas son desconocidas y diferentes,
si la varianzas se pueden considerar iguales se coloca
var.equal=TRUE
conf.level:
print(t.test(x=america$NETAMOUNT, y=asia$NETAMOUNT,
paired=FALSE, var.equal=FALSE,
conf.level = 0.95)$conf.int)
[1] -19302.818 8539.797
attr(,"conf.level")
[1] 0.95
Intervalo de confianza unilateral para la media:
Para modificar la cola de intervalo se cambia el argumento
alternative=less
(si se quiere cola izquierda) o =greater
(para
la cola derecha).
print(t.test(america$NETAMOUNT, alternative = "less", conf.level = 0.95)$conf.int)
[1] -Inf 63371.61
attr(,"conf.level")
[1] 0.95
Intervalos de proporciones:
¿Cuántas ventas superan los 55.000 USD en america?
exito= nrow(subset(america, NETAMOUNT >= 55000))
total= nrow(america)
p_muestra= exito/total
print(prop.test(x=exito, n=total, conf.level=0.95)$conf.int)
[1] 0.2940528 0.5999197
attr(,"conf.level")
[1] 0.95
Si se quiere realiza la diferencia se proporciones los argumentos x
y n
se deben colocar como vectores; por ejemplo: x=c(80,50)
,
n=c(500, 1000)
.
Si se cambia el argumento alternative
, se cambia la lateralidad:
alternative=c("two.sided", "less", "greater")
.
Pruebas de hipótesis:
Media \(\mu\) de una población normal:
Para esta hipótesis debe colocarse el argumento
alternative= "two.sided"
t.test(america$NETAMOUNT, alternative='two.sided',
conf.level=0.95, mu=54261)
One Sample t-test
data: america$NETAMOUNT
t = 0.00076833, df = 42, p-value = 0.9994
alternative hypothesis: true mean is not equal to 54261
95 percent confidence interval:
43338.84 65191.48
sample estimates:
mean of x
54265.16
Intervalo para comparación de varianzas prueba F:
print(var.test(america$NETAMOUNT, asia$NETAMOUNT, conf.level = 0.95)$conf.int)
[1] 0.4913745 1.4438581
attr(,"conf.level")
[1] 0.95
Prueba de hipótesis para una proporción:
Asumiremos una proporción poblacional del 50% ya que no contamos con un estudio previo.
prop.test(exito, total, p =0.5,alternative = c("two.sided"), conf.level = 0.95, correct = TRUE)
1-sample proportions test with continuity correction
data: exito out of total, null probability 0.5
X-squared = 0.37209, df = 1, p-value = 0.5419
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.2940528 0.5999197
sample estimates:
p
0.4418605
Prueba de hipótesis para las diferencias de medias:
t.test(x=america$NETAMOUNT, y=asia$NETAMOUNT, alternative="two.sided", mu=40000,
paired=FALSE, var.equal=TRUE, conf.level=0.95)
Two Sample t-test
data: america$NETAMOUNT and asia$NETAMOUNT
t = -6.297, df = 118, p-value = 5.386e-09
alternative hypothesis: true difference in means is not equal to 40000
95 percent confidence interval:
-19652.919 8889.898
sample estimates:
mean of x mean of y
54265.16 59646.67
Prueba de hipótesis para diferencias de varianza:
var.test(x=america$NETAMOUNT, y=asia$NETAMOUNT, alternative = "two.sided",
null.value = 1, conf.level = 0.95)
F test to compare two variances
data: america$NETAMOUNT and asia$NETAMOUNT
F = 0.8247, num df = 42, denom df = 76, p-value = 0.5012
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.4913745 1.4438581
sample estimates:
ratio of variances
0.8247037
Taller:
Responda las siguientes preguntas haciendo uso de los mismos datos, y argumente su respuesta.
Indique si se puede establecer con un 90% de confianza que las ventas promedio de bicicletas en Asia son de 19500 USD.
Vamos a asumir que las muestras de Asia y América son pareadas, por tanto, borraremos las ultimas filas en Asia que no cuentan con su respectivo par en América:
asia_par=asia[-c(44:77),]
Para que ambas muestras quedarán con 43
datos.
Calcule el IC para las muestras pareadas e indique las diferencias con el intervalo con muestras independientes.
Se puede decir que un nivel del 90% de confianza para las ventas de bicicletas en Asia superarán los 45000 USD.
El director financiero de la regional de Asia le pide comprobar con un nivel de significancia del 10%, si las ventas medias son inferiores a 30.000 USD donde incurrirá en pérdidas.
Argumente si las muestras pareadas de las regiones de Asia y América pueden ser menores de 50000 USD a un nivel de significancia del 95%.