Mon Parcours
De la linguistique au Machine Learning, mon parcours combine expertise multilingue et compétences techniques avancées en NLP et IA.
Expériences Professionnelles
Ingénieure Machine Learning - Data Scientist NLP
Stage de fin d'études au LabTP de Bouygues Construction, centré sur le fine-tuning de modèles transformers pour la recherche sémantique dans le BTP.
Fine-tuning de XLM-RoBERTa pour la recherche sémantique BTP
- Pipeline de continued pretraining (MLM + contrastive learning) sur ~1M de paragraphes avec Databricks, MLflow et Optuna
- Prétraitement avancé (filtrage, masquage de mots-clés, gel de couches, nouveaux tokens)
- Création d'un dataset équilibré selon les domaines BTP
- +25% de précision sur la recherche sémantique
- -30% de temps d'entraînement grâce à l'optimisation des hyperparamètres
Analyse NLP d'enquêtes clients
- Traitement et analyse de réponses ouvertes d'enquêtes de satisfaction
- Structuration par thèmes, extraction de mots-clés (TF-IDF), détection d'outliers par ACP
- Visualisation interactive avec intégration de verbatims
- +40% d'efficacité d'analyse
Technologies : Python, NLP, PyTorch, Transformers, MLflow, Databricks
Ingénieure NLP
Stage au Laboratoire MoDyCo (CNRS) sur l'augmentation de corpus linguistiques et l'automatisation de l'annotation.
- Augmentation du corpus Naija Syncor par deux, avec alignement automatique des silences et tokens transcrits
- Automatisation de l'annotation de fichiers TextGrid pour optimiser l'alignement audio-transcription
- Conception d'un lexique prosodique pour le Naija avec catégorisation linguistique via des arbres de décisions
Technologies : Python, NLP, Whisper, SPPAS, Praat
Formation
Master NLP - Ingénierie Multilingue
Master spécialisé en NLP et ingénierie multilingue à l'INALCO, Sorbonne Nouvelle, Paris Nanterre.
Formation approfondie en traitement automatique du langage naturel avec une approche multilingue.
- NLP avancé : BERT, Transformers, LLMs, NER, génération de texte
- Machine Learning & Deep Learning : PyTorch, TensorFlow, fine-tuning
- Développement : Python, FastAPI, Docker
- Data Processing : Pandas, NumPy, TF-IDF, PCA
Compétences acquises : NLP, Machine Learning, Python, Deep Learning
LLCER Chinois - Spécialité NLP - Mention Bien
Licence LLCER Chinois avec spécialisation en Natural Language Processing à l'INALCO.
Formation combinant expertise linguistique en chinois et compétences techniques en NLP.
- Maîtrise du chinois (niveau B2)
- Introduction au NLP et traitement automatique des langues
- Programmation Python pour le traitement linguistique
Compétences acquises : Chinois, NLP, Python, Linguistique