1. Contexte et Organisation
À propos de PoketraFinday
PoketraFinday est une fintech malgache innovante qui vise à démocratiser l'accès aux services financiers. En transformant chaque téléphone mobile en un portefeuille électronique intelligent, elle permet aux populations non-bancarisées d'accéder au micro-crédit instantané et aux paiements digitaux.
Mission Critique
Le succès de PoketraFinday repose entièrement sur la confiance. Or, cette confiance est aujourd'hui fragilisée. Une recrudescence de fraudes plus ou moins sophistiquées (vols de comptes nocturnes, ingénierie sociale ciblant les seniors) ralentit le développement du système.
Votre mission est de créer un modèle qui peut prédire la cible is_fraud. Cela aidera à sauver la réputation de la plateforme en bloquant les attaquants sans pénaliser les utilisateurs honnêtes.
2. Description du Dataset
Fichiers Requis
| Colonne | Description |
|---|---|
| transaction_id | Identifiant unique de la transaction (UUID). |
| step | Unité de temps (1 heure). De 1 à 744 (31 jours). |
| type | PAYMENT, TRANSFER, CASH_OUT, DEBIT. |
| amount | Montant en Ariary (MGA). |
| customer_id | Identifiant unique du client émetteur. |
| age | Âge du client émetteur. |
| is_fraud | Cible : 0 = Légitime, 1 = Fraude. |
Indice crucial : Pour vos analyses de Feature Engineering, supposez que le Step 1 correspond à la première heure d'un LUNDI.
3. Votre Mission
Votre objectif est de maximiser le F1-Score sur la détection de fraude et de faire un rapport sur les fraudes que vous détectez.
Étape 1 : EDA et Préparation
Faites une Exploratory Data Analysis orientée vers la cible is_fraud. Préparez les données (variables catégorielles, gestion des manquants, suppression des données inutiles).
Étape 2 : Baseline (Régression Logistique)
Vous devez commencer par entraîner une Régression Logistique. Ce modèle servira de référence.
Étape 3 : Exploration & Modélisation
Explorez librement : Advanced Feature Engineering (temporel), Modèles avancés (Random Forest, XGBoost...), Hyperparameter tuning, Stratégies de déséquilibre (SMOTE).
Étape 4 : Génération de la Soumission
Générer le fichier submission.csv en utilisant le test set fourni dans ressources/test.csv.
4. Livrables (Deadline : 16h00)
Tout doit être pushé sur votre repo GitHub avant 16h00. Aucun retard toléré.
-
1. submission.csv
Le fichier doit contenir 2 colonnes :
transaction_idetis_fraud.# Exemple Pandas :
submission = pd.DataFrame({
"transaction_id": test_df["transaction_id"],
"is_fraud": model.predict(X_test)
})
submission.to_csv("submission.csv", index=False) -
2. Vidéo de Présentation (3-5 min) Remplace la soutenance. Présentez : Équipe, EDA, Types de fraudes détectés, Baseline vs Final.
-
3. Code & Notebook
Le code doit être clairement commenté et structuré logiquement.
-
4. Rapport (README.md)
Utilisez le modèle
ressources/readme-model.md. Il contient les questions sur F1-Score, FP/FN et les scénarios de fraude.