Sujet Examen ML - PoketraFinday

1. Contexte et Organisation

À propos de PoketraFinday

PoketraFinday est une fintech malgache innovante qui vise à démocratiser l'accès aux services financiers. En transformant chaque téléphone mobile en un portefeuille électronique intelligent, elle permet aux populations non-bancarisées d'accéder au micro-crédit instantané et aux paiements digitaux.

Mission Critique

Le succès de PoketraFinday repose entièrement sur la confiance. Or, cette confiance est aujourd'hui fragilisée. Une recrudescence de fraudes plus ou moins sophistiquées (vols de comptes nocturnes, ingénierie sociale ciblant les seniors) ralentit le développement du système.

Votre mission est de créer un modèle qui peut prédire la cible is_fraud. Cela aidera à sauver la réputation de la plateforme en bloquant les attaquants sans pénaliser les utilisateurs honnêtes.

Durée 8 Heures (08h00 - 16h00)

Lieu Distanciel Complet

Deadline 16h00 Précises (Commit)

2. Description du Dataset

Fichiers Requis

ressources/train.csv Entraînement (30k lignes)

ressources/test.csv Test (Sans Target)

ressources/readme-model.md Canevas de rapport

Colonne	Description
transaction_id	Identifiant unique de la transaction (UUID).
step	Unité de temps (1 heure). De 1 à 744 (31 jours).
type	PAYMENT, TRANSFER, CASH_OUT, DEBIT.
amount	Montant en Ariary (MGA).
customer_id	Identifiant unique du client émetteur.
age	Âge du client émetteur.
is_fraud	Cible : 0 = Légitime, 1 = Fraude.

Indice crucial : Pour vos analyses de Feature Engineering, supposez que le Step 1 correspond à la première heure d'un LUNDI.

3. Votre Mission

Votre objectif est de maximiser le F1-Score sur la détection de fraude et de faire un rapport sur les fraudes que vous détectez.

Étape 1 : EDA et Préparation

Faites une Exploratory Data Analysis orientée vers la cible is_fraud. Préparez les données (variables catégorielles, gestion des manquants, suppression des données inutiles).

Étape 2 : Baseline (Régression Logistique)

Vous devez commencer par entraîner une Régression Logistique. Ce modèle servira de référence.

Étape 3 : Exploration & Modélisation

Explorez librement : Advanced Feature Engineering (temporel), Modèles avancés (Random Forest, XGBoost...), Hyperparameter tuning, Stratégies de déséquilibre (SMOTE).

Étape 4 : Génération de la Soumission

Générer le fichier submission.csv en utilisant le test set fourni dans ressources/test.csv.

4. Livrables (Deadline : 16h00)

Tout doit être pushé sur votre repo GitHub avant 16h00. Aucun retard toléré.

1. submission.csv

Le fichier doit contenir 2 colonnes : transaction_id et is_fraud.

# Exemple Pandas :
submission = pd.DataFrame({
"transaction_id": test_df["transaction_id"],
"is_fraud": model.predict(X_test)
})
submission.to_csv("submission.csv", index=False)
2. Vidéo de Présentation (3-5 min) Remplace la soutenance. Présentez : Équipe, EDA, Types de fraudes détectés, Baseline vs Final.
3. Code & Notebook

Le code doit être clairement commenté et structuré logiquement.
4. Rapport (README.md)

Utilisez le modèle ressources/readme-model.md. Il contient les questions sur F1-Score, FP/FN et les scénarios de fraude.

5. Critères d'Évaluation

Performance (F1-Score) 30%

Feature Engineering 20%

Présentation & Vidéo 20%

Qualité Code 15%

Réponses README 15%