COURS EN BASE DE DONNEES POUR LES TROISIEMES ANNEES SYSTEMES D'INFORMATION DE L'ECOLE NATIONALE SUPERIEURE D'INFORMATIQUE. OUTILS, LOGICIELS ET PLATEFORMES PEDAGOGIQUES DANS LE DOMAINE DES DONNEES...
recherche focalisée d'information (thèse de doctorat)
Thème : Prise en compte de la structure et du contenu des documents semi-structurés pour une recherche focalisée d'information.
Résumé :
indexation des documents xml (thèse de magister)
Thème : Indexation des documents semi-structurée, Proposition d'une nouvelle approche basée sur le Trie et le Fichier inverse.
Résumé :
La RI (Recherche d’information) classique
est aujourd’hui un domaine bien cerné. Il existe une panoplie
d’ouvrages et d’articles présentant en détail ses différents
concepts et techniques. La RI structurée est à l’ordre du jour et de
nouvelles approches d’indexation ne cessent de voir le jour pour
résoudre les nouveaux défis qu’a engendrés l’information
structurelle des documents semi-structurés. Ces approches sont
différentes les unes des autres dans la manière avec laquelle elles
traitent cette information de structure. Nous envisageons par ce
travail, d’effectuer d’une part une synthèse des approches les plus
connues en mettant en exergue leurs caractéristiques principales et
d’un autre coté, de dresser un essai de comparatif pour les
différencier selon plusieurs points de vue.
Dans un deuxième temps, nous proposons une approche basée sur
une amélioration du fichier inversé et du “Trie” de la recherche
d’information classique baptisée IFTI (Inverted File and Trie based
Index). La principale caractéristique de cette approche est qu’elle
répond aux exigences de la recherche d’information structurée en
conciliant à un niveau considérable le contenu et la structure des
documents semi-structurés.
classification des documents xml
Thème : Classification Automatique de Documents XML (Approche et méthodes)
Résumé :
La classification des documents d’une collection permet de regrouper les documents similaires dans un même ensemble dans le but d’accélérer le processus de recherche et de regrouper les résultats car si un document est pertinent à une requête alors tous les documents qui lui sont similaires ont plus de chance de l’être aussi.
Dans ce travail nous proposons un système de classification automatique de documents XML baptisé IFCLUST, basée sur une nouvelle représentation à savoir l’index « DataGuide annoté avec un index de contenu » proposé dans [DAH, 08]. Elle permet de retrouver absolument n’importe quel élément d’un document après l’indexation. L’algorithme k-means est adapté; il est exécuté après migration d’un ensemble de documents XML vers un espace vectoriel. Les documents sont transformés en vecteurs dont les modalités sont extraites de l’index de la collection.
modélisation des préférences utilisateur
Thème : Prise en compte du profil utilisateur dans les SRI
Résumé :
L’objectif fondamental d’un
système de recherche d’information semi-structurée est de retourner,
à partir d’une collection de documents de type XML, les éléments qui
sont pertinents à un besoin en information exprimé par l’utilisateur
à travers une requête.
Les éléments jugés pertinents
par le système ne le sont pas forcement pour l’utilisateur dont
l’appréciation est souvent subjective. Les SRIS actuels tentent de
réduire cet écart entre la pertinence système et la pertinence
utilisateur. L’une des approches proposées à cet effet est de
modéliser le profil utilisateur, de l’enrichir au fur et à mesure
que l’utilisateur effectue des recherches et de l’utiliser pour que
les éléments retournés soient les plus proches possibles des
préférences de l’utilisateur.