fr | en
Laboratoire Angevin de Recherche en Ingénierie des Systèmes

Séparés par des virgules

Soutenance de thèse de Monsieur Abderrazzaq MOUFIDI14h00 | Salle Aothion - bâtiment E | INRAE | 42 Rue Georges Morel, 49070 Beaucouzé.

Sujet : Contributions to Machine Learning-Based Multimodal integrations for Short Utterance-Based Biometric and Behaviour Identification.

Directeur de thèse : Monsieur David ROUSSEAU

Résumé

Le progrès rapide et la démocratisation de la technologie ont conduit à l’abondance des capteurs. Par conséquent, l’intégration de ces diverses modalités pourrait présenter un avantage considérable pour de nombreuses applications dans la vie réelle, telles que la reconnaissance biométrique ou la détection d’engagement des élèves. Dans le domaine de la multimodalité, les chercheurs ont établi des architectures variées de fusion, allant des approches de fusion précoce, hybride et tardive. Cependant, ces architectures peuvent avoir des limites en ce qui concerne des signaux temporels d’une du rée courte, ce qui nécessite un changement de paradigme vers le développement de tech niques d’apprentissage automatique multimodales qui promettent une précision et une efficacité pour l’analyse de ces données courtes. Dans cette thèse, nous nous appuyons sur l’intégration de la multimodalité pour relever les défis précédents, allant de l’identification biométrique supervisée à la détection non supervisée de l’engagement des étudiants. La première contribution de ce doctorat porte sur l’intégration de la Wavelet Scattering Transform à plusieurs couches avec une architecture profonde appelée x-vectors, grâce à laquelle nous avons amélioré la performance de l’identification du locuteur dans des scénarios impliquant des énoncés courts tout en réduisant le nombre de paramètres nécessaires à l’entraînement. En s’appuyant sur les avantages de la multimodalité, on a proposé une architecture de fusion tardive combinant des vidéos de la profondeur des lèvres et des signaux audio a permis d’améliorer la précision de l’identification dans le cas d’énoncés courts, en utilisant des méthodes efficaces et moins coûteuses pour extraire des caractéristiques spatio-temporelles. Dans le domaine des défis biométriques, il y a la menace de l’émergence des "deepfakes". Ainsi, nous nous sommes concentrés sur l’élaboration d’une méthode de détection des "deepfakes" basée sur des méthodes mathématiques compréhensibles et sur une version finement ajustée de notre précédente fusion tardive appliquée aux vidéos RVB des lèvres et aux audios. En utilisant des techniques d’adaptation au domaine et des méthodes de détection d’anomalies conçues spécifiquement pour les modalités audio et visuelles, l’étude a démontré des capacités de détection robustes dans divers ensembles de données et conditions, soulignant l’importance des approches multimodales pour contrer l’évolution des techniques de deepfake. S’étendant aux contextes éducatifs, la thèse explore la détection multimodale de l’engagement des étudiants dans une classe. En utilisant des capteurs abordables pour acquérir les signaux du rythme cardiaque et les expressions faciales, l’étude a développé un ensemble de données reproductibles et un plan pour identifier les moments de désengagement, tout en tenant compte des nuances culturelles. L’analyse des expressions faciales à l’aide de Vision Transformer (ViT) fusionnée avec le traitement des signaux de fréquence cardiaque, validée par des observations d’experts, a mis en évidence le potentiel du suivi des élèves afin d’améliorer la qualité d’enseignement.

Scroll