Taller Análisis Clustering

Descargue los datos de la BD tarjetas_crédito.csv que contiene la siguiente información:

X: el identificador del tarjetahabiente.

cupo: Es el valor de cupo otorgado.

edad: Edad del tarjetahabiente.

saldo: Saldo de deuda en la tarjeta al corte.

pago: monto de los pagos realizados en 6 meses.

Con esta información resuelva lo siguiente:

Punto 1:

Cree un objeto que tome una muestra aleatoria de 100 individuos de la BD. Esto puede realizarlo con la función sample()

sample_rows<- sample(x,n)

x: es un vector con la posición de las filas del conjunto de datos.

n: es el número de elementos de la muestra.

Esto arrojará un vector con la elección de filas aleatorias y luego proceda a crear el df que contenga los 100 datos para todas las variables, esto lo puede hacer así:

datos_sample <- datos[sample_rows,]

  1. Realice un gráfico de dispersión entre las variables cupo y edad, indique si puede observar algún patrón o agrupamiento que explique la relación.

  2. Calcule las distancias Manhattan para las observaciones en la muestra de las variables cupo y edad.

  3. Evalúe por los métodos de sedimentación, silueta y gap, cual debería ser el numero optimo de grupos en este conjunto de datos.

  4. Realice el agrupamiento por medio de K-means con el numero óptimo de clusters identificados en el punto anterior. realice el graficos separando los grupos.

  5. Indique si con este método se comprueba o no los grupos identificados en el punto 1 que clasificación le daría a sus datos, es decir, que nombre se le daría a los grupos, explique segun el contesto del problema.

Punto 2:

  1. Tome la BD original y agrupe los datos por edad de los individuos haciendo un promedio de la otras columnas (cupo, pago ). Pruebe con la función group_by de la librería (dbplyr).

  2. Construya un dendograma donde se contrasten las variables pago y cupo y se encuentren etiquetados por edad.

  3. Indique si el dendograma esta bien relacionado con los datos originales (use distancia cofenética)

  4. Corte el árbol e indique el numero de clusters es adecuado .

  5. Saque el vector de asignación de elementos al cluster.

  6. Haga el dendograma por colores y de forma circular.

  7. Con esta información ¿podría agrupar a los clientes de un banco basado en su comportamiento de pago? ¿cual sería esa agrupación?