Horizon Portail d'Information

Ressources numériques

Recherche rapide

Recherche avancée

Recherche alphabétique

Modifier la recherche

Carbonera Luvizon , Diogo , 1989-....

Picard , David , 1982-.... , chercheur en informatique

Tabia , Hedi , 1984-....

Wolf , Christian , 1973-.... , chercheur en informatique

Fromont , Élisa , 1980-.... , chercheuse en informatique

Cani , Marie-Paule , 1965-....

Theobalt , Christian

Schmid , Cordelia

Université de Cergy-Pontoise , 1991-2019

École doctorale Économie, Management, Mathématiques, Physique et Sciences Informatiques , Cergy-Pontoise, Val d'Oise

Equipes Traitement de l'Information et Systèmes , Cergy-Pontoise, Val d'Oise

Apprentissage automatique pour la reconnaissance d'action humaine et l'estimation de pose à partir de l'information 3D , Diogo Carbonera Luvizon ; sous la direction de David Picard et de Hedi Tabia

Titre provenant de l'écran-titre

Ecole(s) Doctorale(s) : Ecole doctorale Économie, Management, Mathématiques , Physique et Sciences Informatiques (Cergy-Pontoise, Val d'Oise)

Partenaire(s) de recherche : Equipes Traitement de l'Information et Systèmes (Cergy-Pontoise) (Laboratoire)

Autre(s) contribution(s) : David Picard, Hedi Tabia, Christian Wolf, Élisa Fromont, Marie-Paule Cani, Christian Theobalt, Cordelia Schmid (Membre(s) du jury) ; Christian Wolf, Élisa Fromont (Rapporteur(s))

Thèse de doctorat STIC (Sciences et Technologies de l'Information et de la Communication) - ED EM2PSI Cergy-Pontoise 2019

La reconnaissance d'actions humaines en 3D est une tâche difficile en raisonde la complexité de mouvements humains et de la variété des poses et desactions accomplies par différents sujets. Les technologies récentes baséessur des capteurs de profondeur peuvent fournir les représentationssquelettiques à faible coût de calcul, ce qui est une information utilepour la reconnaissance d'actions.Cependant, ce type de capteurs se limite à des environnementscontrôlés et génère fréquemment des données bruitées. Parallèlement à cesavancées technologiques, les réseaux de neurones convolutifs (CNN) ontmontré des améliorations significatives pour la reconnaissance d’actions etpour l’estimation de la pose humaine en 3D à partir des images couleurs.Même si ces problèmes sont étroitement liés, les deux tâches sont souventtraitées séparément dans la littérature.Dans ce travail, nous analysons le problème de la reconnaissance d'actionshumaines dans deux scénarios: premièrement, nous explorons lescaractéristiques spatiales et temporelles à partir de représentations desquelettes humains, et qui sont agrégées par une méthoded'apprentissage de métrique. Dans le deuxième scénario, nous montrons nonseulement l'importance de la précision de la pose en 3D pour lareconnaissance d'actions, mais aussi que les deux tâches peuvent êtreefficacement effectuées par un seul réseau de neurones profond capabled'obtenir des résultats du niveau de l'état de l'art.De plus, nous démontrons que l'optimisation de bout en bout en utilisant lapose comme contrainte intermédiaire conduit à une précision plus élevée sur latâche de reconnaissance d'action que l'apprentissage séparé de ces tâches. Enfin, nous proposons une nouvellearchitecture adaptable pour l’estimation de la pose en 3D et la reconnaissancede l’actions simultanément et en temps réel. Cette architecture offre une gammede compromis performances vs vitesse avec une seule procédure d’entraînementmultitâche et multimodale.

3D human action recognition is a challenging task due to the complexity ofhuman movements and to the variety on poses and actions performed by distinctsubjects. Recent technologies based on depth sensors can provide 3D humanskeletons with low computational cost, which is an useful information foraction recognition. However, such low cost sensors are restricted tocontrolled environment and frequently output noisy data. Meanwhile,convolutional neural networks (CNN) have shown significant improvements onboth action recognition and 3D human pose estimation from RGB images. Despitebeing closely related problems, the two tasks are frequently handled separatedin the literature. In this work, we analyze the problem of 3D human actionrecognition in two scenarios: first, we explore spatial and temporalfeatures from human skeletons, which are aggregated by a shallow metriclearning approach. In the second scenario, we not only show that precise 3Dposes are beneficial to action recognition, but also that both tasks can beefficiently performed by a single deep neural network and stillachieves state-of-the-art results. Additionally, wedemonstrate that optimization from end-to-end using poses as an intermediateconstraint leads to significant higher accuracy on the action task thanseparated learning. Finally, we propose a new scalable architecture forreal-time 3D pose estimation and action recognition simultaneously, whichoffers a range of performance vs speed trade-off with a single multimodal andmultitask training procedure.

Configuration requise : un logiciel capable de lire un fichier au format : application/pdf

(Accès au texte intégral) http://www.theses.fr/2019CERG1015/document

http://www.theses.fr/2019CERG1015/abes

Thèses et écrits académiques

Pour toute question, contactez la bibliothèque

Horizon Information Portal 3.0© 2001-2019 SirsiDynix Tous droits réservés.

Horizon Portail d'Information