Mehdi Olivier Doubiani

Cagnes-sur-Mer, Alpes-Maritimes · +33(0)617026046 · doubiani@gmail.com

- Master 2 Informatique et Biotechnologie, spécialisé en Big Data/Data Science/Analysis et Intelligence artificielle.
- Plus de 14 ans de formation et de pratique du traitement informatique des données.
- Extension des compétences aux données massives brutes et hétérogènes (data/big data).
- Maîtrisant la conduite des projets et le traitement des données : analyse et comparaison des données, conception de modèles de données, analyse de séries temporelles, sélection de modèles prédictifs, arbres de régressions et suites statistiques, modélisation, mise en place de bases de données, AMOA et encadrement d’une équipe projet, animation de l’expertise, vulgarisation scientifique

- Master 2 Computer Science and Biotechnology, specialized in Big Data/Data Science/Analysis and Artificial Intelligence.
- More than 14 years of training and practice in computer data processing.
- Extension of skills to massive raw and heterogeneous data (data/big data).
- Mastering project management and data processing: data analysis and comparison, data model design, time series analysis, selection of predictive models, regression trees and statistical sequences, modelling, setting up databases, business analysis and management of a project team, expertise management, scientific popularization.

Compétences

Langages de Progammation & Outils

Compétence additionnelles / connaissances

SQL / BI / COGNOS / Crystal Reports / Talend
SalesForce
SGBD, Sql Server (2005 à 2019), Oracle 9 to 12c
Microsoft Azure
Hadoop Ecosystem
Apache Spark , Scala, Kafka, Confluent
Web scraping
Image processing and computer vision
Machine learning and deep learning
Many Python packages – Flask, Streamlit, NumPy, matplotlib, Tensorflow, etc...

Experience Professionnelle

Chef De Projet Technico-Fonctionnel - Nice

Medinfo International Hemoservice Éditeur et intégrateur de progiciels de gestion pour le secteur de la santé (banques de sang, dons d’organes et de cellules souches) CA 1 M€, 13 salariés

-Développement, évolution et intégration de solutions logicielles dans plusieurs pays en EMEA et Asie, avec une équipe de 5 développeurs.
-Conduite d’une cinquantaine de projets en 7 ans.
-Conduite de projets complexes au Qatar, Thaïlande, Congo, Luxembourg…, jusqu’à 2 M€/projet : analyse des besoins clients, étude de faisabilité, spécification fonctionnelle & technique, migration de données, intégration de progiciels, tests (User Acceptance Tests), automatisation des échanges avec des systèmes externes.
-Suivi de la roadmap : adaptation des process et méthodes en cycle V ou en Agile selon le projet, suivi des coûts, établissement de la facture (jours-hommes), support technique.
-Coordination de l’écosystème : fournisseurs, partenaires, clients, utilisateurs, relation avec les gouvernements

Lien

Juillet 2010 - Juillet 2017

Chef De Projet Technico-Fonctionnel - Nice

Tenqi.fr - société de services et de développement web

-Étude de faisabilité en vue de la conception d’un objet connecté : PoC d’un miroir connecté
-Sélection de fournisseurs en Chine, évaluation du coût de fabrication, revue de code, tests et corrections

Lien

Juillet 2017 - Septembre 2017

Consultant Data Senior - Poissy

ALTEN (ESN) - Mission chez PSA PEUGEOT

-Pilotage du projet de data processing d’OPEL/VAUXHALL suite au rachat par PSA, associé à la migration vers le CRM Salesforce dans 20 pays.
-Etude de mapping des schémas de données entre deux systèmes, intégration de données depuis des sources externes : Base de données, de fichiers TXT et Excel via Python et SQL, ETL de données avec Talend. Vérification de la qualité des données et du taux de complétude. Vérification de la cohérence des données avec le business.
-Coordination au sein d’une équipe de 4 personnes : conduites de réunions de comité de pilotage, allocation des moyens et ressources, suivi de la roadmap, réunion internes et réunions avec le client, gestion de la facturation.

Lien

Juin 2019 - Décembre 2019

Consultant Data Scientist - Le Pléssis Robinson

ALTEN (ESN) - Mission chez Renault

-Prédiction des ventes de pièces détachées vers le réseau Renault et les enseignes tierces.
-Segmentation Client B2B : Réalisation d’une analyse des données disponibles et mise en place d’une analyse exploratoire des données en langage Python.
-Prédiction de l’Uplift Marketing B2B, Prédiction des effets des campagnes Marketing B2B.
-Système de recommandation sur la plateforme interne d’achat de pièces détachées.
-Prédiction d’attrition client en atelier après la période de garantie d’un véhicule.

Lien

Décembre 2019 - Mai 2020

Big Data Engineer - Machine Learning Engineer

AIS (Artifical Intelligence Systems)

-Mise en place d’un data pipeline et machine learning pipeline en End-to-End.
-Ingestion des données en temps depuis une application mobile et de bureau avec Confluent/Kafka.
-Chargement de données historiques avec ETL et normalisation des champs avec Apache Spark sous Scala et PySpark.
-Création d’un datalake sous Google Cloud BigQuery.
-Mise en place d’un DAG Apache Airflow pour chargement des données dans une base de données analytique.
-Mise en place d’un DAG Apache Airflow pour entrainement continu d’un modèle de machine learning.
-Mise en place d’un serveur MLFlow pour versionnement des modèles de machine learning.
-Création d’une API à partir du meilleur modèle extrait de MLFlow puis dockerisée sur un serveur dans le cloud.

Lien

Juin 2020 - Février 2021

Big Data Engineer - Machine Learning Engineer

Soladis By EFOR - Mission chez Solvay

-Creation d'un outil de topic modeling à partir d'abstract d'articles scientifiques
-Traitement d'un fichier XML volumineux
-Extraction d'informations utiles
-Modification d'une fonction d'analyse syntaxique pour limiter l'empreinte mémoire
-Explorer la technique classique LDA pour la modélisation de sujets
-Explorer la technique SOTA BERT pour la modélisation de sujets
-Créer des emplacements significatifs pour l'exploration des données par les chercheurs

Lien

Juin 2021 - Aujourd''hui

Formations

Université de Perpignan

DUT Statistiques et Traitement informatique des données

Septembre 1999 - Septembre 2001

Université d’Orléans

DUT Informatique

Septembre 2003 - Septembre 2004

Université de Poitiers - IUP Génie Physiologique et Informatique Option Biotechnologie

Master 2 Informatique et Biotechnologie

Septembre 2005 - Septembre 2008

Data ScienceTech Institute / Sophia Antipolis

MSc Data Science et Data Engineering and AI RNCP LEVEL 7

Octobre 2017 - Octobre 2020

OpenClassRooms / Online

Master 2 Machine Learning Engineer RNCP LEVEL 7

Décembre 2018 - Mai 2020

Activité Extra Professionnelle et Bénévolat

Rotary Club Sophia Antipolis

Responsable Fondation Rotary

Responsable de la Fondation Rotary pour financer des projets caritatifs internationaux.

Mars 2018 - Present

Les Solidaires 06

Bénévole

Distribution de nourritures, boissons et vêtements pour personnes sans abris à Nice

Mars 2018 - Present

Tout le Monde veut prendre sa place

Emission TV

Passage dans l'émission TV sur France 2 : Tout le Monde veut prendre sa place et évocation du sujet de l'IA

Juin 2018 - Present

SIMPLON.CO

Membre Jury certification RNCP développeur en intelligence artificielle chez simplon.co (niveau 6)

Une habilitation en qualité de membre de jury des sessions de validation de la certification RNCP : 'Développeur en intelligence artificielle' (Niveau 6)

Février 2021 - Juillet 2023

Conférences & Workshops

Mes conférences et workshops récents sont...

Rotary Sophia Antipolis Conference
Animateur d'une conférence de présentation de l'IA au grand public en Octobre 2018

Projets

Cette section contient les super projets que j'ai développé :)

Exploratory Data Analysis - Proof of Concept

une étude exploratoire de données en vue d'une application innovante

Le site Lamarmite souhaite mettre en place un générateur de recettes saines à partir de la base de données OpenFoodFacts à destination d’une clientièle française

Python Pandas EDA

Voir le projet

Supervised Learning - Regression (Numerical Prediction)

Seattle Buildings 2050 Initiative

Tenter de prédire les émissions de CO2 et la consommation totale d’énergie de bâtiments pour lesquels elles n’ont pas encore été mesurées…

Python Supervised Learning Sci-Kit Learn Régression

Voir le projet

Unsupervised Learning

Customer Segmentation - Brazilian E-Commerce Site

Olist souhaite que vous fournissiez à ses équipes d’e-commerce une segmentation des clients qu’elles pourront utiliser au quotidien pour leurs campagnes de communication. Votre objectif est de comprendre les différents types d’utilisateurs grâce à leur comportement et à leurs données personnelles. Vous devrez fournir à l’équipe marketing une description « actionable » de votre segmentation et de sa logique sous-jacente pour une utilisation optimale, ainsi qu’une proposition de contrat de maintenance basée sur une analyse de la stabilité des segments au cours du temps.

Python Unsupervised Sci-kit Learn K-Means Segmentation Clustering

Voir le projet

Natural Language Processing

Tag Prediction - StackOverflow

Amateur de Stack Overflow, qui vous a souvent sauvé la mise, vous décidez d’aider la communauté en retour. Pour cela, vous développez un système de suggestion de tag pour le site. Celui-ci prendra la forme d’un algorithme de machine learning qui assigne automatiquement plusieurs tags pertinents à une question.

Python NLP Spacy Beautiful Soup TfIdf Tags Supervised Unsupervised Latent Dirichlet Allocation

Voir le projet

Deep Learning Convolutionnal Neural Network

CNN - Dog Breed Classifier

Une association de protection des animaux a une base de données de pensionnaires qui commence à s’agrandir et ils n’ont pas toujours le temps de référencer les images des animaux qu’ils ont accumulées depuis plusieurs années. Ils aimeraient donc réaliser un index de l’ensemble de la base de données d’images, pour classer les chiens par races.

Python Computer Vision Keras Neural Networks Tensorflow 2.0

Voir le projet

Développez une preuve de concept

Votre supérieur vous demande de trouver une méthode plus récente pour améliorer la méthode utilisée en production chez un client.

En début de projet (1 à 2 jours de travail), après avoir fait un rapide tour d’horizon de l’état de l’art du domaine, vous soumettrez à votre supérieur (votre mentor) un plan prévisionnel de votre travail, avec l’algorithme envisagé, le dataset sur lequel vous pensez évaluer les performances, un ou deux arguments justifiant votre choix, deux ou trois références bibliographiques (post de blog ou article de recherche) vous permettant de présenter un état de l’art sur le problème étudié et sur lesquels votre travail futur s’appuiera. Une fois la démarche validée, vous approfondirez votre compréhension de cette nouvelle approche, et l’implémenterez, ainsi qu’une méthode baseline simple (algorithme déjà utilisé sur un projet précédent, qui jouera le rôle de ce qui est actuellement en production). Vous vous appuierez également sur les sources sélectionnées pour présenter l’état de l’art et les avancées récentes (un exemple très récent, <18 mois, et rien de plus de 5 ans).

Réduction de dimension Python UMAP TMAP scikit-learn

Voir le projet

Compétition Kaggle TReNDS Neuroimaging

Rendez-vous sur le site de Kaggle et choisissez la compétition qui vous intéresse. Vous êtes libre de votre choix. Vous devrez participer à la compétition dans la mesure du possible, ou en tout cas obtenir des résultats mesurables. Vous passerez par toutes les étapes de l’analyse => récupération, nettoyage des données, analyse exploratoire, création de plusieurs modèles et mesure de leurs performances, etc. Vous participerez à une compétition réelle et en cours.

Algorithme Genetique Deep Learning PyCaret Python Régression

Voir le projet

Prédiction Cancer du sein

Prédiction du cancer du sein à l'aide d'algorithmes de classifications sur la base de données du Wisconsin sur le cancer du sein. Mise en œuvre avec Streamlit.

Prédicteur de cancer du sein. La prédiction du cancer du sein à l'aide d'algorithmes de classifications sur la base de données du Wisconsin sur le cancer du sein. Mise en œuvre avec Streamlit. Contexte : Le diagnostic histologique du cancer du sein est la règle d'or, mais il prend beaucoup de temps.

Python Classification Cancer du sein Scikit-learn Random Forest XGBoost Decision Tree KNN

Voir le projet

Hands-on examples of processing massive streams of data - in real time, on a cluster - with Apache Spark Streaming.

-Process massive streams of real-time data using Spark Streaming -Integrate Spark Streaming with data sources, including Kafka, Flume, and Kinesis -Use Spark 2's Structured Streaming API -Create Spark applications using the Scala programming language -Output transformed real-time data to Cassandra or file systems -Integrate Spark Streaming with Spark SQL to query streaming data in real time -Train machine learning models with streaming data, and use those models for real-time predictions -Ingest Apache access log data and transform streams of it -Receive real-time streams of Twitter feeds -Maintain stateful data across a continuous stream of input data -Query streaming data across sliding windows of time

Spark Hadoop Spark MLLib Spark Streaming Scala Java SBT EMR

Voir le projet

Analyzing Password Strength with Python

1°) Not too short 2°) All types of characters 3°) Must not contain the phrase password (case insensitive) 4°) Must not contain the user's first or last name

Python Pandas

Voir le projet

The Ultimate Hands-On Hadoop - Tame your Big Data!

Install and work with a real Hadoop installation right on your desktop with Hortonworks (now part of Cloudera) and the Ambari UI. Manage big data on a cluster with HDFS and MapReduce. Write programs to analyze data on Hadoop with Pig and Spark. Store and query your data with Sqoop, Hive, MySQL, HBase, Cassandra, MongoDB, Drill, Phoenix, and Presto. Design real-world systems using the Hadoop ecosystem. Learn how your cluster is managed with YARN, Mesos, Zookeeper, Oozie, Zeppelin, and Hue. Handle streaming data in real time with Kafka, Flume, Spark Streaming, Flink, and Storm

Hadoop Spark Streaming Phoenix MongoDB Cassandra Oozie Flume Storm Hive Pig HDFS YARN Mesos Hue Kafka

Voir le projet

Certifications

Stanford University : AI for Medical Diagnosis (deeplearning.ai) Voir le certificat
Stanford University : AI for Medical Prognosis (deeplearning.ai) Voir le certificat
Stanford University : AI for Medical Treatment (deeplearning.ai) Voir le certificat
Data Science Methodology CRISP-DM Voir le certificat
HARVARD X PH125.1x: Data Science: R Basics Voir le certificat
HARVARD X PH125.2x: Data Science: Visualization Voir le certificat
HARVARD X PH125.3x: Data Science: Probability Voir le certificat
HARVARD X PH125.4x: Data Science: Inference and Modeling Voir le certificat
HARVARD X PH125.5x: Data Science: Productivity Tools Voir le certificat
HARVARD X PH125.6x: Data Science: Wrangling Voir le certificat
HARVARD X PH125.7x: Data Science: Linear Regression Voir le certificat
HARVARD X PH125.8x: Data Science: Machine Learning Voir le certificat
Utilisez des modèles supervisés non linéaires Voir le certificat
Modélisez vos données avec les méthodes ensemblistes Voir le certificat
Explorez vos données avec des algorithmes non supervisés Voir le certificat
Analysez vos données textuelles Voir le certificat
Introduction to PySpark Voir le certificat
DataFab's Spark Day Participation Voir le certificat
Introduction to Data Engineering Voir le certificat
Writing Efficient Python Code Voir le certificat
Streamlined Data Ingestion with pandas Voir le certificat
Software Engineering for Data Scientists in Python Voir le certificat
Introduction to Shell Voir le certificat
Data Processing in Shell Voir le certificat
Command Line Automation in Python Voir le certificat
Streaming Big Data with Spark Streaming & Scala - Hands On! Voir le certificat
The Ultimate Hands-On Hadoop - Tame your Big Data! Voir le certificat
Découvrez la méthodologie DevOps Voir le certificat
Optimisez votre déploiement en créant des conteneurs avec Docker Voir le certificat
Utilisez Git et GitHub pour vos projets de développement Voir le certificat