- Master 2 Informatique et Biotechnologie, spécialisé en Big Data/Data Science/Analysis et Intelligence artificielle.
- Plus de 14 ans de formation et de pratique du traitement informatique des données.
- Extension des compétences aux données massives brutes et hétérogènes (data/big data).
- Maîtrisant la conduite des projets et le traitement des données : analyse et comparaison des données, conception de modèles de données, analyse de séries temporelles, sélection de modèles prédictifs, arbres de régressions et suites statistiques, modélisation, mise en place de bases de données, AMOA et encadrement d’une équipe projet, animation de l’expertise, vulgarisation scientifique
- Master 2 Computer Science and Biotechnology, specialized in Big Data/Data Science/Analysis and Artificial Intelligence.
- More than 14 years of training and practice in computer data processing.
- Extension of skills to massive raw and heterogeneous data (data/big data).
- Mastering project management and data processing: data analysis and comparison, data model design, time series analysis, selection of predictive models, regression trees and statistical sequences, modelling, setting up databases, business analysis and management of a project team, expertise management, scientific popularization.
-Développement, évolution et intégration de solutions logicielles dans plusieurs pays en EMEA et Asie, avec une équipe de 5 développeurs.
-Conduite d’une cinquantaine de projets en 7 ans.
-Conduite de projets complexes au Qatar, Thaïlande, Congo, Luxembourg…, jusqu’à 2 M€/projet : analyse des besoins clients, étude de faisabilité, spécification fonctionnelle & technique, migration de données, intégration de progiciels, tests (User Acceptance Tests), automatisation des échanges avec des systèmes externes.
-Suivi de la roadmap : adaptation des process et méthodes en cycle V ou en Agile selon le projet, suivi des coûts, établissement de la facture (jours-hommes), support technique.
-Coordination de l’écosystème : fournisseurs, partenaires, clients, utilisateurs, relation avec les gouvernements
-Étude de faisabilité en vue de la conception d’un objet connecté : PoC d’un miroir connecté
-Sélection de fournisseurs en Chine, évaluation du coût de fabrication, revue de code, tests et corrections
-Pilotage du projet de data processing d’OPEL/VAUXHALL suite au rachat par PSA, associé à la migration vers le CRM Salesforce dans 20 pays.
-Etude de mapping des schémas de données entre deux systèmes, intégration de données depuis des sources externes : Base de données, de fichiers TXT et Excel via Python et SQL, ETL de données avec Talend. Vérification de la qualité des données et du taux de complétude. Vérification de la cohérence des données avec le business.
-Coordination au sein d’une équipe de 4 personnes : conduites de réunions de comité de pilotage, allocation des moyens et ressources, suivi de la roadmap, réunion internes et réunions avec le client, gestion de la facturation.
-Prédiction des ventes de pièces détachées vers le réseau Renault et les enseignes tierces.
-Segmentation Client B2B : Réalisation d’une analyse des données disponibles et mise en place d’une analyse exploratoire des données en langage Python.
-Prédiction de l’Uplift Marketing B2B, Prédiction des effets des campagnes Marketing B2B.
-Système de recommandation sur la plateforme interne d’achat de pièces détachées.
-Prédiction d’attrition client en atelier après la période de garantie d’un véhicule.
-Mise en place d’un data pipeline et machine learning pipeline en End-to-End.
-Ingestion des données en temps depuis une application mobile et de bureau avec Confluent/Kafka.
-Chargement de données historiques avec ETL et normalisation des champs avec Apache Spark sous Scala et PySpark.
-Création d’un datalake sous Google Cloud BigQuery.
-Mise en place d’un DAG Apache Airflow pour chargement des données dans une base de données analytique.
-Mise en place d’un DAG Apache Airflow pour entrainement continu d’un modèle de machine learning.
-Mise en place d’un serveur MLFlow pour versionnement des modèles de machine learning.
-Création d’une API à partir du meilleur modèle extrait de MLFlow puis dockerisée sur un serveur dans le cloud.
-Creation d'un outil de topic modeling à partir d'abstract d'articles scientifiques
-Traitement d'un fichier XML volumineux
-Extraction d'informations utiles
-Modification d'une fonction d'analyse syntaxique pour limiter l'empreinte mémoire
-Explorer la technique classique LDA pour la modélisation de sujets
-Explorer la technique SOTA BERT pour la modélisation de sujets
-Créer des emplacements significatifs pour l'exploration des données par les chercheurs
Mes conférences et workshops récents sont...
Cette section contient les super projets que j'ai développé :)
Le site Lamarmite souhaite mettre en place un générateur de recettes saines à partir de la base de données OpenFoodFacts à destination d’une clientièle française
Python Pandas EDA
Tenter de prédire les émissions de CO2 et la consommation totale d’énergie de bâtiments pour lesquels elles n’ont pas encore été mesurées…
Python Supervised Learning Sci-Kit Learn Régression
Olist souhaite que vous fournissiez à ses équipes d’e-commerce une segmentation des clients qu’elles pourront utiliser au quotidien pour leurs campagnes de communication. Votre objectif est de comprendre les différents types d’utilisateurs grâce à leur comportement et à leurs données personnelles. Vous devrez fournir à l’équipe marketing une description « actionable » de votre segmentation et de sa logique sous-jacente pour une utilisation optimale, ainsi qu’une proposition de contrat de maintenance basée sur une analyse de la stabilité des segments au cours du temps.
Python Unsupervised Sci-kit Learn K-Means Segmentation Clustering
Amateur de Stack Overflow, qui vous a souvent sauvé la mise, vous décidez d’aider la communauté en retour. Pour cela, vous développez un système de suggestion de tag pour le site. Celui-ci prendra la forme d’un algorithme de machine learning qui assigne automatiquement plusieurs tags pertinents à une question.
Python NLP Spacy Beautiful Soup TfIdf Tags Supervised Unsupervised Latent Dirichlet Allocation
Une association de protection des animaux a une base de données de pensionnaires qui commence à s’agrandir et ils n’ont pas toujours le temps de référencer les images des animaux qu’ils ont accumulées depuis plusieurs années. Ils aimeraient donc réaliser un index de l’ensemble de la base de données d’images, pour classer les chiens par races.
Python Computer Vision Keras Neural Networks Tensorflow 2.0
En début de projet (1 à 2 jours de travail), après avoir fait un rapide tour d’horizon de l’état de l’art du domaine, vous soumettrez à votre supérieur (votre mentor) un plan prévisionnel de votre travail, avec l’algorithme envisagé, le dataset sur lequel vous pensez évaluer les performances, un ou deux arguments justifiant votre choix, deux ou trois références bibliographiques (post de blog ou article de recherche) vous permettant de présenter un état de l’art sur le problème étudié et sur lesquels votre travail futur s’appuiera. Une fois la démarche validée, vous approfondirez votre compréhension de cette nouvelle approche, et l’implémenterez, ainsi qu’une méthode baseline simple (algorithme déjà utilisé sur un projet précédent, qui jouera le rôle de ce qui est actuellement en production). Vous vous appuierez également sur les sources sélectionnées pour présenter l’état de l’art et les avancées récentes (un exemple très récent, <18 mois, et rien de plus de 5 ans).
Réduction de dimension Python UMAP TMAP scikit-learn
Rendez-vous sur le site de Kaggle et choisissez la compétition qui vous intéresse. Vous êtes libre de votre choix. Vous devrez participer à la compétition dans la mesure du possible, ou en tout cas obtenir des résultats mesurables. Vous passerez par toutes les étapes de l’analyse => récupération, nettoyage des données, analyse exploratoire, création de plusieurs modèles et mesure de leurs performances, etc. Vous participerez à une compétition réelle et en cours.
Algorithme Genetique Deep Learning PyCaret Python Régression
Prédicteur de cancer du sein. La prédiction du cancer du sein à l'aide d'algorithmes de classifications sur la base de données du Wisconsin sur le cancer du sein. Mise en œuvre avec Streamlit. Contexte : Le diagnostic histologique du cancer du sein est la règle d'or, mais il prend beaucoup de temps.
Python Classification Cancer du sein Scikit-learn Random Forest XGBoost Decision Tree KNN
-Process massive streams of real-time data using Spark Streaming -Integrate Spark Streaming with data sources, including Kafka, Flume, and Kinesis -Use Spark 2's Structured Streaming API -Create Spark applications using the Scala programming language -Output transformed real-time data to Cassandra or file systems -Integrate Spark Streaming with Spark SQL to query streaming data in real time -Train machine learning models with streaming data, and use those models for real-time predictions -Ingest Apache access log data and transform streams of it -Receive real-time streams of Twitter feeds -Maintain stateful data across a continuous stream of input data -Query streaming data across sliding windows of time
Spark Hadoop Spark MLLib Spark Streaming Scala Java SBT EMR
1°) Not too short 2°) All types of characters 3°) Must not contain the phrase password (case insensitive) 4°) Must not contain the user's first or last name
Python Pandas
Install and work with a real Hadoop installation right on your desktop with Hortonworks (now part of Cloudera) and the Ambari UI. Manage big data on a cluster with HDFS and MapReduce. Write programs to analyze data on Hadoop with Pig and Spark. Store and query your data with Sqoop, Hive, MySQL, HBase, Cassandra, MongoDB, Drill, Phoenix, and Presto. Design real-world systems using the Hadoop ecosystem. Learn how your cluster is managed with YARN, Mesos, Zookeeper, Oozie, Zeppelin, and Hue. Handle streaming data in real time with Kafka, Flume, Spark Streaming, Flink, and Storm
Hadoop Spark Streaming Phoenix MongoDB Cassandra Oozie Flume Storm Hive Pig HDFS YARN Mesos Hue Kafka
This Flask template was built with by Rodolfo Ferro, under a MIT License.