fr | en
Laboratoire Angevin de Recherche en Ingénierie des Systèmes

Séparés par des virgules

Thèses CIFRE OCTAVE

Extraction et gestion de la connaissance clients par des méthodes d’apprentissage non supervisées.
Doctorant : Axel GUERIN
Directeur de thèse : Frédéric Saubion; Co-directeur : Pierre Chauvet
Encadrement industriel : C. COURTOIS (OCTAVE)


Début de thèse : mars 2021

Équipe : Information, Signal, Image et Sciences du Vivant

Contacts : frederic.saubion @ univ-angers.fr et chauvet @ uco.fr

Objectif de la thèse

L’objectif de ce travail de doctorat est double. Le principal est l’ajout d’une segmentation prédictive dans un outil d’aide à la décision destiné aux commerciaux des entreprises clientes d’Octave. Cet outil a pour but de leur permettre de cibler des campagnes marketing sur certaines typologies de clients. Le second objectif est celui de la création d’un moteur de recommandation d’achat, à partir de cette même segmentation, qui sera utilisé pour les sites web des clients d’Octave. Le produit devant être utilisé à terme pour plusieurs entreprises, il sera nécessaire de définir une méthodologie générique applicable au domaine du retail. En particulier cet outil doit être capable d’utiliser les données internes à ces entreprises ainsi que des bases externes.

Défis scientifiques et techniques

Définition d’une méthodologie pour la préparation des données de manière générique pour le retail :

Un premier point dur pour ce système est la réalisation d’une brique de data management qui permette de collecter des données très hétérogènes de sources différentes. Cette brique devra prendre en compte des données manquantes, incomplètes, voire incorrectes. Ces données peuvent aussi être changeantes, soit du fait d’un changement de l’activité commerciale de l’entreprise cliente soit de l’enrichissement ou de la modification du type de données qu’elle stocke, de modifications dans les labels et / ou formatages associés. Ainsi tout un travail de recherche est à effectuer sur les outils et algorithmes permettant de détecter des données erronées (ou ne respectant pas les formatages prévus), remplaçant des données manquantes ou supprimant des échantillons insuffisamment qualifiés. Ces recherches sont naturellement liées aussi au choix des modèles de segmentation et de prévision qui seront mis en œuvre dans la brique d’analyse des données, de type Machine Learning (ML).

Construction des algorithmes d’apprentissages non-supervisés :

L’implémentation des algorithmes de type ML nécessite également un travail d’adaptation à toutes ces typologies de données. Les données prétraitées demanderont des modifications au seins des méthodes d’apprentissages non-supervisées, par exemple, le choix d’une distance pertinente. Ces modifications vont de pair avec la phase de préparation, elles pourront permettre de maitriser le problème des données manquantes dans certains cas. Une part du travail sera consacrée à l’évaluation de la pertinence de ces algorithmes, mesure de la séparation inter-clusters, de l’inertie intra-cluster, comparaison avec une expertise métier … La dernière partie sera quant à elle consacrée à la visualisation des résultats, l’outil développé étant destiné à des personnes non initiées au domaine de l’intelligence artificielle, ces derniers devront être visuels et simples à comprendre.

Analyse et explication des données

L’analyse logique de données permet de fournir des explications permettant de mieux comprendre les caractéristiques structurelles de groupes de données. Nous pensons utiliser des approches que nous avons déjà utilisées dans le cadre de données biologiques à ce nouveau contexte. Ces méthodes permettent également d’extraire des motifs caractéristiques qui peuvent alors être présentés aux utilisateurs.

Développement d’un moteur de recommandation à partir des résultats obtenus par les méthodes d’apprentissages non-supervisées :

Cela permettra d’approfondir la pertinence des recommandations en tenant compte de paramètres pertinents jusqu’ici inexploités. En effet, les moteurs de recommandations dans le e-commerce aujourd’hui fonctionnent principalement sur un système de notation des utilisateurs ou encore des liens entre les différents produits. Or, en retraçant l’entièreté du parcours client et en croisant ce dernier avec des données externes, les possibilités sont bien plus importantes. Ce moteur de recommandation serait une application directe de la phase précédente, le fait de pouvoir classifier les clients à partir de ces données permettrait d’obtenir un résultat tenant mieux compte de tout son parcours.

Scroll