Taller Análisis Clustering
Descargue los datos de la BD tarjetas_crédito.csv
que contiene la
siguiente información:
X: el identificador del tarjetahabiente.
cupo: Es el valor de cupo otorgado.
edad: Edad del tarjetahabiente.
saldo: Saldo de deuda en la tarjeta al corte.
pago: monto de los pagos realizados en 6 meses.
Con esta información resuelva lo siguiente:
Punto 1:
Cree un objeto que tome una muestra aleatoria de 100 individuos de la
BD. Esto puede realizarlo con la función sample()
sample_rows<- sample(x,n)
x
: es un vector con la posición de las filas del conjunto de datos.
n
: es el número de elementos de la muestra.
Esto arrojará un vector con la elección de filas aleatorias y luego proceda a crear el df que contenga los 100 datos para todas las variables, esto lo puede hacer así:
datos_sample <- datos[sample_rows,]
Realice un gráfico de dispersión entre las variables cupo y edad, indique si puede observar algún patrón o agrupamiento que explique la relación.
Calcule las distancias Manhattan para las observaciones en la muestra de las variables cupo y edad.
Evalúe por los métodos de sedimentación, silueta y gap, cual debería ser el numero optimo de grupos en este conjunto de datos.
Realice el agrupamiento por medio de K-means con el numero óptimo de clusters identificados en el punto anterior. realice el graficos separando los grupos.
Indique si con este método se comprueba o no los grupos identificados en el punto 1 que clasificación le daría a sus datos, es decir, que nombre se le daría a los grupos, explique segun el contesto del problema.
Punto 2:
Tome la BD original y agrupe los datos por edad de los individuos haciendo un promedio de la otras columnas (cupo, pago ). Pruebe con la función group_by de la librería
(dbplyr)
.Construya un dendograma donde se contrasten las variables pago y cupo y se encuentren etiquetados por edad.
Indique si el dendograma esta bien relacionado con los datos originales (use distancia cofenética)
Corte el árbol e indique el numero de clusters es adecuado .
Saque el vector de asignación de elementos al cluster.
Haga el dendograma por colores y de forma circular.
Con esta información ¿podría agrupar a los clientes de un banco basado en su comportamiento de pago? ¿cual sería esa agrupación?