Tentative : exp_001_rf_baseline
| Élément | Détails |
|---|---|
Identifiant de l’essai |
|
Modèle |
Random Forest |
Hyperparamètres |
n_estimators=100, max_depth=10 |
Features utilisées |
|
Prétraitement |
StandardScaler, Imputation moyenne, One-hot encoding |
Séparation des données |
80% train / 20% test, stratifié |
Taille des données |
10 000 lignes (8 000 train / 2 000 test) |
Objectif de l’essai |
Modèle de base sans tuning, avec premières features |
Métriques principales |
Accuracy: 0.82, F1: 0.79, AUC: 0.85 |
Temps d’entraînement |
5.2 sec |
Résultats notables |
Recall faible pour la classe minoritaire |
Prochaines étapes |
Ajouter des features comportementales + tester XGBoost |
Détail des features
| Nom de la feature | Calcul ou source | Description / Intérêt |
|---|---|---|
age |
Calculé à partir de |
Âge de l’utilisateur — potentiellement corrélé au comportement |
income_per_member |
|
Revenu par personne dans le foyer — standardise les revenus selon la taille du foyer |
last_login_days |
|
Nombre de jours depuis la dernière connexion — indicateur d’engagement utilisateur |
gender_encoded |
One-hot encoding de la variable |
Encodage catégoriel pour exploitation par le modèle |
churn_flag |
Généré : 1 si inactif depuis plus de 30 jours, 0 sinon |
Variable cible pour la classification (churn vs non-churn) |
Notes détaillées
-
J’ai constaté que
last_login_daysest fortement corrélé avec le label. -
Les arbres sur-entraînent un peu : à surveiller sur d’autres splits ou avec cross-validation.
-
income_per_membersemble plus prédictif queincomeseul.