travaux de recherche

 

recherche focalisée d'information (thèse de doctorat)

Thème : Prise en compte de la structure et du contenu des documents semi-structurés pour une recherche focalisée d'information.

 

Résumé :

 

indexation des documents xml (thèse de magister)

 

Thème : Indexation des documents semi-structurée, Proposition d'une nouvelle approche basée sur le Trie et le Fichier inverse.

 

Résumé :

La RI (Recherche d’information) classique est aujourd’hui un domaine bien cerné. Il existe une panoplie d’ouvrages et d’articles présentant en détail ses différents concepts et techniques. La RI structurée est à l’ordre du jour et de nouvelles approches d’indexation ne cessent de voir le jour pour résoudre les nouveaux défis qu’a engendrés l’information structurelle des documents semi-structurés. Ces approches sont différentes les unes des autres dans la manière avec laquelle elles traitent cette information de structure. Nous envisageons par ce travail, d’effectuer d’une part une synthèse des approches les plus connues en mettant en exergue leurs caractéristiques principales et d’un autre coté, de dresser un essai de comparatif pour les différencier selon plusieurs points de vue.
    Dans un deuxième temps, nous proposons une approche basée sur une amélioration du fichier inversé et du “Trie” de la recherche d’information classique baptisée IFTI (Inverted File and Trie based Index). La principale caractéristique de cette approche est qu’elle répond aux exigences de la recherche d’information structurée en conciliant à un niveau considérable le contenu et la structure des documents semi-structurés.

    

classification des documents xml

 

Thème : Classification Automatique de Documents XML (Approche et méthodes)

 

Résumé :

La classification des documents d’une collection permet de regrouper les documents similaires dans un même ensemble dans le but d’accélérer le processus de recherche et de regrouper les résultats car si un document est pertinent à une requête alors tous les documents qui lui sont similaires ont plus de chance de l’être aussi.

       Dans ce travail nous proposons un système de classification automatique de documents XML baptisé IFCLUST, basée sur une nouvelle représentation à savoir l’index « DataGuide annoté avec un index de contenu » proposé dans [DAH, 08]. Elle permet de retrouver absolument n’importe quel élément d’un document après l’indexation. L’algorithme k-means est adapté; il est exécuté après migration d’un ensemble de documents XML vers un espace vectoriel. Les documents sont transformés en vecteurs dont les modalités sont extraites de l’index de la collection.

modélisation des préférences utilisateur

 

Thème : Prise en compte du profil utilisateur dans les SRI

 

Résumé :

L’objectif fondamental d’un système de recherche d’information semi-structurée est de retourner, à partir d’une collection de documents de type XML, les éléments qui sont pertinents à un besoin en information exprimé par l’utilisateur à travers une requête.

Les éléments jugés pertinents par le système ne le sont pas forcement pour l’utilisateur dont l’appréciation est souvent subjective. Les SRIS actuels tentent de réduire cet écart entre la pertinence système et la pertinence utilisateur. L’une des approches proposées à cet effet est de modéliser le profil utilisateur, de l’enrichir au fur et à mesure que l’utilisateur effectue des recherches et de l’utiliser pour que les éléments retournés soient les plus proches possibles des préférences de l’utilisateur.