Projets personnels
Machine Learning & Data Science

Ma démarche d'apprentissage en autodidacte

En parallèle de ma formation BTS SIO SLAM, je me forme en autodidacte au Machine Learning et à la Data Science pour préparer ma poursuite d'études en Bachelor IA / Data Science.

J'apprends via des cours en ligne, de la documentation technique et surtout par la pratique : je participe à des compétitions Kaggle pour travailler sur des datasets réels et développer mes compétences en analyse de données, prétraitement, modélisation et évaluation de modèles.

Tous mes projets sont publiés en open source sur mon GitHub, avec du code commenté et documenté pour partager ma progression et mes apprentissages.

Projet 1 : Prédiction de survie sur le Titanic

Premier projet d'initiation au Machine Learning réalisé sur le dataset Kaggle Titanic.

Technologies utilisées

Python pandas numpy matplotlib seaborn scikit-learn

Objectif

Prédire quels passagers ont survécu au naufrage du Titanic à partir de leurs données personnelles : âge, sexe, classe sociale, port d'embarquement, nombre de proches à bord, etc.

Démarche

  1. Exploration des données (EDA) : Analyse des variables et création de visualisations pour comprendre les patterns
  2. Nettoyage des données : Gestion des valeurs manquantes (âge, cabine, port d'embarquement), encodage des variables catégorielles
  3. Modélisation : Entraînement d'un modèle Random Forest Classifier avec scikit-learn
  4. Évaluation : Mesure de la précision sur un set de validation puis soumission Kaggle

Résultats

Accuracy (validation) : 82.68%

Score Kaggle (test réel) : 73.92%

Ce premier projet m'a permis de comprendre le pipeline complet d'un projet ML : de l'exploration des données brutes jusqu'à l'entraînement et l'évaluation d'un modèle prédictif.

Projet 2 : Prédiction de prix immobiliers

Deuxième projet d'initiation au Machine Learning, réalisé sur le dataset Kaggle "House Prices - Advanced Regression Techniques".

Technologies utilisées

Python pandas numpy matplotlib seaborn scikit-learn

Objectif

Prédire le prix de vente de maisons à partir de 76 variables : superficie, qualité de construction, année de construction, type de quartier, nombre de pièces, présence d'un garage, d'une piscine, état général, etc.

Démarche

  1. Exploration des données (EDA) : Dataset de 1460 maisons avec 81 variables. Analyse de la distribution des prix (asymétrique, médiane à 163 000$). Identification de 19 colonnes avec valeurs manquantes.
  2. Nettoyage des données :
    • Suppression des colonnes avec trop de manquants (>80%) : PoolQC, Alley, Fence, MiscFeature
    • Remplacement des NaN par "None" ou 0 quand ils signifient une absence (garage, sous-sol, cheminée)
    • Remplacement par la médiane pour les vraies valeurs manquantes (LotFrontage)
    • Encodage des variables texte en nombres via .cat.codes
  3. Modélisation : Algorithme Random Forest Regressor avec 100 arbres de décision. Séparation train/validation 80% / 20%.
  4. Évaluation : Métriques MAE (Mean Absolute Error) et RMSE pour mesurer la précision des prédictions en dollars.

Résultats

MAE (validation) : environ 17 465 $ (erreur moyenne)

RMSE (validation) : environ 28 342 $ (pénalise davantage les grosses erreurs)

Précision relative : Erreur moyenne d'environ 10% par rapport au prix médian (163 000$)

Ce projet m'a permis d'approfondir mes compétences en feature engineering (gestion intelligente des valeurs manquantes selon leur signification) et en régression (prédire une valeur continue plutôt qu'une catégorie).

Prochaines étapes

Je continue à me former sur des sujets plus avancés : deep learning avec TensorFlow/Keras, traitement du langage naturel (NLP), computer vision, et manipulation de datasets plus complexes.

Mon objectif est d'acquérir une base solide en Machine Learning avant d'entamer mon Bachelor Data Science / IA en septembre 2026, pour être opérationnelle rapidement en entreprise.