import os

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.decomposition import PCA
from sklearn.metrics import davies_bouldin_score, silhouette_score
from sklearn.preprocessing import StandardScaler

from utils_DA import (
    plot_dendrogram,
    tune_agglomerative_clustering,
    tune_k_means
)
import warnings
warnings.filterwarnings("ignore")

mall_customers = pd.read_csv('data/mall_customers.csv')
mall_customers.drop(['CustomerID', 'Gender'], axis=1, inplace=True)

mall_customers.head()

_ = sns.pairplot(mall_customers)
plt.tight_layout()

k_means_tuning = tune_k_means(data=mall_customers, k=range(2, 15), n_init = 10)

ax = plt.gca()
ax.set_xlabel('k')
ax.set_ylabel('Calinski-Harabasz score')
plt.tight_layout()

print(f"Optimal k: {k_means_tuning.get('best_k')}")

Optimal k: 6

k_means_tuning = tune_k_means(
    data=mall_customers, k=range(2, 15), score_function=davies_bouldin_score)

ax = plt.gca()
ax.set_xlabel('k')
ax.set_ylabel('Davies-Bouldin score (negated)')
plt.tight_layout()

print(f"Optimal k (Davies-Bouldin): {k_means_tuning.get('best_k')}")

Optimal k (Davies-Bouldin): 6

k_means_tuning = tune_k_means(
    data=mall_customers, k=range(2, 15), score_function=silhouette_score)

ax = plt.gca()
ax.set_xlabel('k')
ax.set_ylabel('Silhouette score')
plt.tight_layout()

print(f"Optimal k (Silhouette): {k_means_tuning.get('best_k')}")

Optimal k (Silhouette): 6

agglomerative_clustering_tuning = tune_agglomerative_clustering(data=mall_customers, k=range(2, 15))

ax = plt.gca()
ax.set_xlabel('Number of clusters')
ax.set_ylabel('Calinski-Harabasz score')
plt.tight_layout()

print(f"Optimal number of clusters: {agglomerative_clustering_tuning.get('best_k')}")

Optimal number of clusters: 6

agglomerative_clustering_tuning = tune_agglomerative_clustering(data=mall_customers, k=range(2, 15), score_function=davies_bouldin_score)

ax = plt.gca()
ax.set_xlabel('Number of clusters')
ax.set_ylabel('Davies-Bouldin score (negated)')
plt.tight_layout()

print(f"Optimal number of clusters (Davies-Bouldin): {agglomerative_clustering_tuning.get('best_k')}")

Optimal number of clusters (Davies-Bouldin): 6

agglomerative_clustering_tuning = tune_agglomerative_clustering(data=mall_customers, k=range(2, 15), score_function=silhouette_score)

ax = plt.gca()
ax.set_xlabel('Number of clusters')
ax.set_ylabel('Silhouette score')
plt.tight_layout()

print(f"Optimal number of clusters (Silhouette): {agglomerative_clustering_tuning.get('best_k')}")

Optimal number of clusters (Silhouette): 6

scaler = StandardScaler()
mall_customers_scaled = scaler.fit_transform(mall_customers)

pca_model = PCA(n_components=3)
pca_model.fit(mall_customers_scaled)

PCA(n_components=3)

PCA(n_components=3)

try:
    cumulative_variance_explained = np.cumsum(pca_model.explained_variance_ratio_)

    _ = plt.plot(range(1, mall_customers.shape[1] + 1), cumulative_variance_explained)
    ax = plt.gca()
    _ = ax.set_xlabel("Number of principal components")
    _ = ax.set_ylabel("Variability captured")
    _ = ax.set_xticks([1, 2, 3])
    plt.tight_layout()

    for index, item in enumerate(cumulative_variance_explained):
        print(f"Variance explained by {index + 1} components: {round(item * 100, 2)}%")
except NameError:
    print('The object `pca_model` does not exist!')

Variance explained by 1 components: 44.27%
Variance explained by 2 components: 77.57%
Variance explained by 3 components: 100.0%

	Age	Annual Income (k$)	Spending Score (1-100)
0	19	15	39
1	21	15	81
2	20	16	6
3	23	16	77
4	31	17	40

Clustering Sensitivity Analysis & PCA on Mall Customer Data¶

Import libraries¶

Read data and basic preparation¶

k-means¶

Hierarchical clustering¶