Tentative : exp_001_rf_baseline

Élément Détails

Élément	Détails
Identifiant de l’essai	`exp_001_rf_baseline`
Modèle	Random Forest
Hyperparamètres	n_estimators=100, max_depth=10
Features utilisées	`age`, `income_per_member`, `last_login_days`, `gender_encoded`, … (voir section "Détail des features")
Prétraitement	StandardScaler, Imputation moyenne, One-hot encoding
Séparation des données	80% train / 20% test, stratifié
Taille des données	10 000 lignes (8 000 train / 2 000 test)
Objectif de l’essai	Modèle de base sans tuning, avec premières features
Métriques principales	Accuracy: 0.82, F1: 0.79, AUC: 0.85
Temps d’entraînement	5.2 sec
Résultats notables	Recall faible pour la classe minoritaire
Prochaines étapes	Ajouter des features comportementales + tester XGBoost

Identifiant de l’essai

exp_001_rf_baseline

Modèle

Random Forest

Hyperparamètres

n_estimators=100, max_depth=10

Features utilisées

age, income_per_member, last_login_days, gender_encoded, … (voir section "Détail des features")

Prétraitement

StandardScaler, Imputation moyenne, One-hot encoding

Séparation des données

80% train / 20% test, stratifié

Taille des données

10 000 lignes (8 000 train / 2 000 test)

Objectif de l’essai

Modèle de base sans tuning, avec premières features

Métriques principales

Accuracy: 0.82, F1: 0.79, AUC: 0.85

Temps d’entraînement

5.2 sec

Résultats notables

Recall faible pour la classe minoritaire

Prochaines étapes

Ajouter des features comportementales + tester XGBoost

Détail des features

Nom de la feature Calcul ou source Description / Intérêt

Nom de la feature	Calcul ou source	Description / Intérêt
age	Calculé à partir de `birthdate` (au moment de l’import des données)	Âge de l’utilisateur — potentiellement corrélé au comportement
income_per_member	`income / household_size`	Revenu par personne dans le foyer — standardise les revenus selon la taille du foyer
last_login_days	`days_between(today, last_login)`	Nombre de jours depuis la dernière connexion — indicateur d’engagement utilisateur
gender_encoded	One-hot encoding de la variable `gender`	Encodage catégoriel pour exploitation par le modèle
churn_flag	Généré : 1 si inactif depuis plus de 30 jours, 0 sinon	Variable cible pour la classification (churn vs non-churn)

age

Calculé à partir de birthdate (au moment de l’import des données)

Âge de l’utilisateur — potentiellement corrélé au comportement

income_per_member

income / household_size

Revenu par personne dans le foyer — standardise les revenus selon la taille du foyer

last_login_days

days_between(today, last_login)

Nombre de jours depuis la dernière connexion — indicateur d’engagement utilisateur

gender_encoded

One-hot encoding de la variable gender

Encodage catégoriel pour exploitation par le modèle

churn_flag

Généré : 1 si inactif depuis plus de 30 jours, 0 sinon

Variable cible pour la classification (churn vs non-churn)

Notes détaillées

J’ai constaté que last_login_days est fortement corrélé avec le label.
Les arbres sur-entraînent un peu : à surveiller sur d’autres splits ou avec cross-validation.
income_per_member semble plus prédictif que income seul.

Résultats supplémentaires

Extrait de la matrice de confusion :

Classe 0 : TP = 1120, FN = 180
Classe 1 : TP = 420,  FP = 280

Figure 1. Courbe ROC (à intégrer plus tard)

Prochaines idées

Essayer un modèle XGBoost
Ajouter des indicateurs de fréquence d’usage (sessions/semaine)
Croiser l’âge avec la durée d’inscription pour voir l’effet combiné