Catalogue 
 Ressources numériques 
 Nouveautés 
 Liens utiles 
 Mon compte 
   
Recherche rapideRecherche avancéeRecherche alphabétiqueHistoriqueInformation
Recherche    Modifier la recherche  
> CERGY
 
Elargir la recherche
 
 
 Parcourir le catalogue
  par auteur:
 
  •  
  •  Lahbib , Dhafer , 1982-....
     
  •  
  •  Laurent , Dominique , 19..-.... , professeur d'informatique
     
  •  
  •  Lachiche , Nicolas , 1969 -....
     
  •  
  •  Crémilleux , Bruno
     
  •  
  •  Bennis-Zeitouni , Karine , 1964-.... , enseignant-chercheur en informatique
     
  •  
  •  Vrain , Christel , 1961-....
     
  •  
  •  Boullé , Marc , 1965-....
     
  •  
  •  Université de Cergy-Pontoise , 1991-2019
     
  •  
  •  École doctorale Sciences et ingénierie , Cergy-Pontoise, Val d'Oise
     
  •  
  •  Equipes Traitement de l'Information et Systèmes , Cergy-Pontoise, Val d'Oise
     
     
     
     Affichage MARC
    Auteur : 
    Lahbib , Dhafer , 1982-....
    Titre : 
    Préparation non paramétrique des données pour la fouille de données multi-tables , Dhafer Lahbib ; sous la direction de Dominique Laurent
    Editeur : 
    2012
    Notes : 
    Titre provenant de l'écran-titre
    Ecole(s) Doctorale(s) : École doctorale Sciences et ingénierie (Cergy-Pontoise, Val d'Oise)
    Partenaire(s) de recherche : Equipes Traitement de l'Information et Systèmes (Cergy-Pontoise) (Laboratoire)
    Autre(s) contribution(s) : Karine Bennis-Zeitouni, Christel Vrain, Marc Boullé (Membre(s) du jury) ; Nicolas Lachiche, Bruno Crémilleux (Rapporteur(s))
    Thèse de doctorat STIC (sciences et technologies de l'information et de la communication) - Cergy Cergy-Pontoise 2012
    Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Afin de prendre en compte les variables explicatives secondaires (appartenant aux tables secondaires), la plupart des approches existantes opèrent par mise à plat, obtenant ainsi une représentation attribut-valeur classique. Par conséquent, on perd la représentation initiale naturellement compacte mais également on risque d'introduire des biais statistiques. Dans cette thèse, nous nous intéressons à évaluer directement les variables secondaires vis-à-vis de la variable cible, dans un contexte de classification supervisée. Notre méthode consiste à proposer une famille de modèles non paramétriques pour l'estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte les variables secondaires dans un classifieur de type Bayésien Naïf. L'approche repose sur un prétraitement supervisé des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Dans un premier temps, ce prétraitement est effectué de façon univariée, c'est-à-dire, en considérant une seule variable secondaire à la fois. Dans un second temps, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre variables secondaires. Des modèles en grilles de données sont utilisés pour obtenir des critères Bayésiens permettant d'évaluer les prétraitements considérés. Des algorithmes combinatoires sont proposés pour optimiser efficacement ces critères et obtenir les meilleurs modèles.Nous avons évalué notre approche sur des bases de données multi-tables synthétiques et réelles. Les résultats montrent que les critères d'évaluation ainsi que les algorithmes d'optimisation permettent de découvrir des variables secondaires pertinentes. De plus, le classifieur Bayésien Naïf exploitant les prétraitements effectués permet d'obtenir des taux de prédiction importants.
    In multi-relational data mining, data are represented in a relational form where the individuals of the target table are potentially related to several records in secondary tables in one-to-many relationship. In order take into account the secondary variables (those belonging to a non target table), most of the existing approaches operate by propositionalization, thereby losing the naturally compact initial representation and eventually introducing statistical bias. In this thesis, our purpose is to assess directly the relevance of secondary variables w.r.t. the target one, in the context of supervised classification.We propose a family of non parametric models to estimate the conditional density of secondary variables. This estimation provides an extension of the Naive Bayes classifier to take into account such variables. The approach relies on a supervised pre-processing of the secondary variables, through discretization in the numerical case and a value grouping in the categorical one. This pre-processing is achieved in two ways. In the first approach, the partitioning is univariate, i.e. by considering a single secondary variable at a time. In a second approach, we propose an itemset based multivariate partitioning of secondary variables in order to take into account any correlations that may occur between these variables. Data grid models are used to define Bayesian criteria, evaluating the considered pre-processing. Combinatorial algorithms are proposed to efficiently optimize these criteria and find good models.We evaluated our approach on synthetic and real world multi-relational databases. Experiments show that the evaluation criteria and the optimization algorithms are able to discover relevant secondary variables. In addition, the Naive Bayesian classifier exploiting the proposed pre-processing achieves significant prediction rates.
    Configuration requise : un logiciel capable de lire un fichier au format : PDF
    URL: 
    (Accès au texte intégral) http://www.theses.fr/2012CERG0616/document
    http://biblioweb.u-cergy.fr/theses/2012CERG0616.pdf
    http://www.theses.fr/2012CERG0616/abes
    https://tel.archives-ouvertes.fr/tel-00854142
    Ajouter à ma liste 
    Exemplaires
    Pas de données exemplaires


    Pour toute question, contactez la bibliothèque
    Horizon Information Portal 3.25_france_v1m© 2001-2019 SirsiDynix Tous droits réservés.
    Horizon Portail d'Information