Tentative : exp_001_rf_baseline

Élément Détails

Identifiant de l’essai

exp_001_rf_baseline

Modèle

Random Forest

Hyperparamètres

n_estimators=100, max_depth=10

Features utilisées

age, income_per_member, last_login_days, gender_encoded, …​ (voir section "Détail des features")

Prétraitement

StandardScaler, Imputation moyenne, One-hot encoding

Séparation des données

80% train / 20% test, stratifié

Taille des données

10 000 lignes (8 000 train / 2 000 test)

Objectif de l’essai

Modèle de base sans tuning, avec premières features

Métriques principales

Accuracy: 0.82, F1: 0.79, AUC: 0.85

Temps d’entraînement

5.2 sec

Résultats notables

Recall faible pour la classe minoritaire

Prochaines étapes

Ajouter des features comportementales + tester XGBoost

Détail des features

Nom de la feature Calcul ou source Description / Intérêt

age

Calculé à partir de birthdate (au moment de l’import des données)

Âge de l’utilisateur — potentiellement corrélé au comportement

income_per_member

income / household_size

Revenu par personne dans le foyer — standardise les revenus selon la taille du foyer

last_login_days

days_between(today, last_login)

Nombre de jours depuis la dernière connexion — indicateur d’engagement utilisateur

gender_encoded

One-hot encoding de la variable gender

Encodage catégoriel pour exploitation par le modèle

churn_flag

Généré : 1 si inactif depuis plus de 30 jours, 0 sinon

Variable cible pour la classification (churn vs non-churn)

Notes détaillées

  • J’ai constaté que last_login_days est fortement corrélé avec le label.

  • Les arbres sur-entraînent un peu : à surveiller sur d’autres splits ou avec cross-validation.

  • income_per_member semble plus prédictif que income seul.

Résultats supplémentaires

Extrait de la matrice de confusion :
Classe 0 : TP = 1120, FN = 180
Classe 1 : TP = 420,  FP = 280
exp 001 roc curve
Figure 1. Courbe ROC (à intégrer plus tard)

Prochaines idées

  • Essayer un modèle XGBoost

  • Ajouter des indicateurs de fréquence d’usage (sessions/semaine)

  • Croiser l’âge avec la durée d’inscription pour voir l’effet combiné