Enrichir et raisonner sur des espaces sémantiques pour l’attribution de mots-clés Adil El Ghali1, 2 Daniel Hromada1 Kaoutar El Ghali (1) LUTIN UserLab, 30, avenue Corentin Cariou, 75930 Paris cedex 19 (2) IBM CAS France, 9 rue de Verdun, 94253 Gentilly elghali@lutin-userlab.fr RÉSUMÉ Cet article présent le système hybride et multi-modulaire d’extraction des mots-clés à partir de corpus des articles scientifiques. Il s’agit d’un système multi-modulaire car intègre en soi les traitements 1) morphosyntaxiques (lemmatization et chunking) 2) sémantiques (Reflective Random Indexing) ainsi que 3) pragmatiques (modélisés par les règles de production). On parle aussi d’un système hybride car il était utilisé -sans modification majeure- pour trouver des solutions aux toutes les deux pistes du DEFT 2012. Pour la Piste 1 - où une terminologie était fournie - nous obtînmes le F-score de 0.9488 ; pour la Piste 2 – où aucune liste des mots clés candidates n’était pas fourni au préalable – le F-score obtenu est 0.5874. ABSTRACT Enriching and reasoning on semantic spaces for keyword extraction This article presents a multi-modular hybrid system for extraction of keywords from corpus of scientific articles. System is multi-modular because it integrates components executing transformations on 1) morphosyntactic level (lemmatization and chunking) 2) semantic level (Reflected Random Indexing), as well as upon more 3) « pragmatic » aspects of processed documents, modeled by production rules. The system is hybrid because it was able to address both tracks of DEFT2012 competition – a «reduced search-space» scenario of Track 1, whose objective was to map the content of a scientific article upon one among the members of a « terminological list » ; as well as more « real-life » scenario of Track2 within which no list was associated to documents contained in the corpus. In both Tracks, the system hereby presented has obtained the an F-score of 0.9488 for the Track1, and 0.5874 for the Track2. MOTS-CLÉS Chunking. : Extraction de mots-clés, Espaces sémantiques, RRI, Réseau bayésien, Règles de production, KEYWORDS: Keyword extraction, Semantic spaces, RRI, Bayesian Network, Production Rules, Chunking. 1 Introduction L’édition 2012 du défi fouille de textes (DEFT) a pour thème l’identification automatique des mots-clés indexant le contenu d’articles publiés dans des revues scientifiques. Deux pistes ont été proposées : dans la première (Piste 1) la terminologie des mots-clés est fournie, alors que dans la deuxième (Piste 2) l’attribution des mots-clés devait se faire sans terminologie. Pour la réalisation de cette tâche nous avons décidé, dans la continuité de ce que nous avions réalisé en 2011 (El Ghali, 2011), de représenter le sens des termes et des documents du corpus dans des espaces sémantiques utilisant la variante Reflective Random Indexing (RRI). Le choix de RRI une variante de Random Indexing (RI) (Sahlgren, 2006) est motivé par les bonnes propriétés de cette méthode, héritées de RI et qui sont largement décrites dans la littérature (Cohen et al., 2010a). Mais une de ces propriétés moins connue et commentée s’est révélée particulièrement pertinente pour le problème posé dans le cadre de cette édition du DEFT, à savoir l’uniformité de l’espace sémantique : en effet, les vecteurs construits par RRI pour représenter les documents et les termes du corpus sont « comparables ». Dans la méthode que nous avons développé pour cette édition du DEFT, nous avons voulu répondre à deux questions principales : 1. quel serait l’apport d’un pré-traitement linguistique de surface aux espaces sémantiques ? et en quoi pourrait-on comparer ces pré-traitements aux méthodes de constructions d’espaces sémantiques permettant de capturer des éléments de structure ? 2. peut-on améliorer les méthodes de scoring développées dans les précédentes éditions du DEFT en utilisant les dernières avancées en Intelligence artificielle, notamment le raisonnement à base de règles et les graphes probabilistes, encodant respectivement des règles générales sur le choix des mots-clés et des informations incertaines issues du corpus d’apprentissage ? La première question s’imposait naturellement du fait qu’une grande partie des mots-clés qui ont été fournis pour la Piste 1 sont en fait des groupes de mots et que leurs catégories morphosyntaxiques et grammaticales respectait des règles assez simples. Pour pouvoir traiter les mots-clés composés de plusieurs mots, certaines méthodes de représentation de textes en espaces sémantiques telles que BEAGLE (Jones et Mewhort, 2007), PSI (Cohen et al., 2009), ou encore RRI avec des indexes positionnels (Widdows et Cohen, 2010), permettent d’encoder les informations sur l’ordre des mots. La deuxième question est née du fait que l’on disposait d’informations de nature différentes qui pouvait aider à attribuer correctement des mots-clés : sur la sémantique, sur la distribution des mots-clés, sur la structure, sur les revues dont sont issues les articles ... Ces informations pouvaient être difficilement encodées dans un seul formalisme de décision. Nous avons donc décidé de définir une procédure de décision pour l’attribution de mots-clés qui combine des règles symboliques avec des réseaux bayésiens, avec les Règles de production Probabilistes (Aït-Kaci et Bonnard, 2011). Nous avons fait le choix d’aborder les deux pistes du défi de cette année de manière sensiblement identique, les mêmes méthodes ont été utilisées pour les deux pistes. Pour ce faire, nous avons construit une terminologie pour la Piste 2. Cette terminologie est une liste de mots-clés candidats établie en utilisant un espace sémantique et un pré-traitement linguistique de surface. L’article est organisé comme suit : nous commençons par présenter dans la section 2 une analyse du corpus et des informations qui peuvent en être extraite et qui sont utiles pour la tâche d’attribution de mots-clés. Ensuite, dans la section 3, nous rappelons brièvement le principe de fonctionnement de RRI, puis nous décrivons comment incorporer les informations issue du pré-traitement linguistique dans les espaces sémantiques, mais aussi comment la liste des candidats mots-clés pour la Piste 2 est construite. Dans la section 4 nous présentons le principe de fonctionnement de la procédure de décision pour l’attribution des mots-clés. Enfin, dans la section 5 nous détaillons les caractéristiques de chacune des exécutions et discutons les résultats avant de conclure. 2 Le Corpus 2.1 2.1.1 Statistiques générales de corpus d’apprentissage Piste 1 Pour la Piste 1, il y a 140 documents dans le corpus d’apprentissage. Les documents proviennent de 4 revues différentes, l’identificateur de la revue étant encodé dans le nom du fichier XML contenant l’article. La liste terminologique – i.e. la liste contenant tous les termes uniques choisies comme un mot clé pour un document dans le corpus - associée au corpus d’apprentissage contient Tappr = 666 termes uniques. Les nombres des mots-clés associés sont fournis pour chaque document du corpus d’apprentissage aussi bien que du corpus de test. En somme, Σi Nappri = 754. En moyenne, chaque article de corpus d’apprentissage a : mean(Nappr ) = 5.386 ; median(Nappr ) = 5; min(Nappr ) = 1; max(Nappr ) = 13; sd(Nappr ) = 1.344 Etant donné que Σi Nappri > Tappr , il est évident qu’il y a des termes qui sont définis comme mots clés pour plusieurs articles. Le principe de bijection 1 terme – 1 article n’est pas donc applicable. Plus précisément, pour le corpus d’apprentissage, 604 mots clés sont associés à un seul article, 46 en sont associés à deux, 10 à trois, quatre mots clés (i.e. « identité », « interprétation », « enseignement de la traduction », « traduction ») sont chacun associés à quatre articles, tandis que le terme « humanitaire » est défini comme mot clé pour cinq articles et le terme « mondialisation » pour sept articles. On note aussi que parmi 62 termes qui sont associés à plus qu’un article, seulement 26 (i.e. 41,9%) sont associés aux articles appartenants à plus qu’une revue. Les analyses fréquentielles préliminaires montrent aussi que dans 141 parmi 740 cas, le mot clé ne se trouve pas dans le corps ni résumé d’article auquel il est associé. En d’autres termes, pour plus que 19% des mots clés, la fréquence de leur occurrence dans l’article est zéro, c’est donc plus qu’évident qu’il faut aller au-delà des fréquences « brutes » si on veut que notre système d’extraction des mots clés ait la précision > 80% (la Figure 1 montre les fréquences d’occurrence des mots-clés dans les documents associés). L’objectif de la Piste 1 est donc de concevoir le système qui, partant de fichiers de corpus d’apprentissage contenant Dappr ∗ Tappr = 140 * 666 = 93240 couplages (document, terme) serait capable à déterminer les couples ayant été établis par les auteurs de leurs documents. 2.1.2 Piste 2 Le corpus d’apprentissage contient 142 documents. Contrairement à la Piste 1, aucune liste terminologique n’est fournie, l’espace de recherche dans lequel on cherche les candidats censé d’être les mots clés est donc beaucoup plus grande. Mais les quantité des mots clés associés au différents articles sont présents. Grâce à ces quantités fournis dans la balise des documents XML, on sait sans regarder au fichier de référence que la distribution de Σi Nappri = 763 FIGURE 1 – Cca 19% (en rouge) des mots clés de corpus d’apprentissage ne figurent pas dans les documents auxquels ils sont attribués associations entre mots clés et articles dispose de propriétés suivantes : mean(Nappr ) = 5.411; median(Nappr ) = 5; min(Nappr ) = 3; max(Nappr ) = 13; sd(Nappr ) = 1.404. L’analyse de fichier de référence révèle que parmi 681 termes qui couvrent l’ensemble de tous les mots clés du corpus d’apprentissage de piste2 , 627 en sont associés à un seul article, 37 à deux, 12 à trois, deux termes à (« humanitaire » et « didactique ») à quatre articles, les termes « identité » et « culture » étant associé à cinq articles et le terme « traduction » à huit documents. Étant donné que l’information concernant l’appartenance d’un article à une revue est présente, on sait aussi que parmi 54 termes associés à plus qu’un article, seulement 18 (i.e. 33.3%) sont associés à plus qu’une revue. L’analyse des fréquences de mots clés dans les articles associés donne les résultats qui vont dans le même sens que ceux de la Piste 1 : dans 145 cas (19%), les mots clés n’apparaîssent pas dans l’article auquel ils étaient associés ! 2.2 2.2.1 Statistiques générales du corpus de test Piste 1 Le corpus de test de la Piste 1 contient D t est = 94 documents dans . La liste terminologique du corpus de test contient 478 termes uniques. Parmi ces 478 termes-candidats, 435 en sont associés avec un seul document, 34 aux deux documents différentes, quatre termes sont associés aux trois articles, et quatre termes aux quatre articles, le terme le plus réussi comme mot clé étant « identité » lui-même associé au six articles. Parmi les 43 termes associés à plus d’un article, 20 (i.e. 46,5%) sont associés aux articles appartenants à plus d’une revue. La distribution de la somme du nombre des mots clés associés aux articles du corpus de test de la Piste 1 ( Σi Nt est i = 537) dispose de propriétés suivantes : mean(Nt est ) = 5.712; median(Nt est ) = 5; min(Nt est ) = 1; max(Nt est ) = 12; sd(Nt est ) = 1.701. 2.2.2 Piste 2 La distribution de Σi Nt est i = 484 mots clés attribués aux 93 documents contenus dans le corpus de test de la Piste 2 est caractérisé par les mesures suivantes : mean(Nt est ) = 5.204; median(Nt est ) = 5; min(Nt est ) = 2; max(Nt est ) = 10; sd(Nt est ) = 1.323. La consultation des fichiers de référence obtenus après la fin de la phase competitive de DEFT2012 nous permets à savoir que parmi 35 termes associés à plus qu’un article, seulement 10 (i.e. 28,6%) sont associés aux articles appartenants à plus d’une revue. 2.3 Que peut-on apprendre d’autre du corpus ? Un rapide parcours du corpus de d’apprentissage et de la terminologie fournie pour la Piste 1, nous montre qu’au delà des fréquences, les mots-clé choisis par les auteurs respectent quelques règles : – les mots-clés sont différents entre eux : les auteurs n’utilisent que rarement des mots-clés très proches ; – ils sont assez souvent repris dans l’introduction et la conclusion de l’article ; – leur catégorie morphosyntaxique ou grammaticale est très rarement « verbale », les mot-clés les plus utilisés sont des noms (communs ou propres), des adjectifs ou des groupes nominaux ; Par ailleurs, comme on pouvait s’y attendre les mots-clés sont fortement liés sémantiquement au document, comme le montre la figure 2 : FIGURE 2 – Similarités document-mots-clés (min, max, mean) vs. document-terminologie (mean) 3 Espaces sémantiques Les modèles de représentation vectorielle de la sémantique des mots sont une famille de modèles qui représentent la similarité sémantique entre les mots en fonction de l’environnement textuel dans lequel ces mots apparaissent. La distribution de co-occurrence des mots dans le corpus est rassemblée, analysée puis transformée en espace sémantique dans lequel les mots sont représentés comme des vecteurs dans un espace vectoriel de grande dimension. LSA (Landauer et Dumais, 1997), HAL (Lund et Burgess, 1996) et RI (Kanerva et al., 2000) en sont quelques exemples. Ces modèles sont basés sur l’hypothèse distributionnelle de (Harris, 1968) qui affirme que les mots qui apparaissent dans des contextes similaires ont un sens similaire. La caractérisation de l’unité de contexte est une problèmatique commune à toutes ces méthodes, sa définition est différente suivant les modèles. Par exemple, LSA construit une matrice mot-document dans laquelle chaque cellule ai j contient la fréquence d’un mot i dans une unité de contexte j. HAL définit une fenêtre flottante de n mots qui parcourt chaque mot du corpus, puis construit une matrice mot-mot dans laquelle chaque cellule ai j contient la fréquence à laquelle un mot i co-occure avec un mot j dans la fenêtre précédemment définie. Différentes méthodes mathématiques permettant d’extraire la signification des concepts, en réduisant la dimensionnalité de l’espace de co-occurence, sont appliquées à la distribution des fréquences stockées dans la matrice mot-document ou mot-mot. Le premier objectif de ces traitements mathématiques est d’extraire les «patrons» qui rendent compte des variations de fréquences et qui permettent d’éliminer ce qui peut être considéré comme du « bruit ». LSA emploie une méthode générale de décomposition linéaire d’une matrice en composantes indépendantes : la décomposition de valeur singulière (SVD). Dans HAL la dimension de l’espace est réduite en maintenant un nombre restreint de composantes principales de la matrice de co-occurrence. À la fin de ce processus de réduction de dimensionnalité, la similitude entre deux mots peut être calculée selon différentes méthodes. Classiquement, la valeur du cosinus de l’angle entre deux vecteurs correspondant à deux mots ou à deux groupes de mots est calculée afin d’approximer leur similarité sémantique. 3.1 Reflective Random Indexing La méthode de construction d’espace sémantique utilisée est Reflective Random Indexing (RRI) (Cohen et al., 2010a), c’est une nouvelle méthode de construction d’espaces sémantiques basée sur la projection aléatoire qui est assez différente des autres méthodes de construction d’espaces sémantiques. Ses particularités sont (i) qu’elle ne construit pas de matrice de co-occurrence et (ii) qu’elle ne nécessite pas, contrairement aux autres modèles vectoriels de représentation sémantique, des traitements statistiques lourds comme la SVD pour LSA. RRI est basée sur la projection aléatoire (Vempala, 2004; Bingham et Mannila, 2001), qui permet un meilleur passage à l’échelle pour grand nombre des documents. La construction d’un espace sémantique avec RRI se déroule comme suit : – Créer une matrice A(d × n), contenant des vecteurs indexes, où d est le nombre de documents ou de contextes et n le nombre de dimensions choisies par l’expérimentateur. Les vecteurs indexes sont des vecteurs creux générés aléatoirement. – Créer une matrice B(t × n), contenant des vecteurs termes, où t est le nombre de termes différents dans le corpus. Initialiser tous ces vecteurs avec des valeurs nulles pour démarrer la construction de l’espace sémantique. – Pour tout document du corpus, chaque fois qu’un terme τ apparaît dans un document δ, accumuler le vecteur index de δ au vecteur terme de τ. à la fin du processus, les vecteurs termes qui apparaîssent dans des contextes similaires ont accumulé des vecteurs indexes similaire. L’aspect « Reflective » dans RRI consiste à rejouer plusieurs cycles des trois étapes de l’algorithme non plus à partir de vecteurs aléatoires mais à partir des vecteurs indexes obtenues pour les documents. Ces cycles permettent de gommer l’aspect aléatoire de l’espace, le système convergeant généralement au bout d’un nombre réduit de cycles. 3.1.1 Semantic Vectors Plusieurs implémentations libre de RRI sont disponibles, nous utilisons la librairie Semantic Vectors 1 (Widdows et Cohen, 2010). Semantic Vectors présente un certain nombre d’avantages par rapport aux autres librairies implémentant RRI, en particulier, parce qu’il offre, d’une part, une implémentation de RRI basé sur des indexes positionnels (Cohen et al., 2010a) qui construit l’espace sémantique non plus en se basant sur les occurrences d’un terme dans un document mais dans une fenêtre glissante à la manière de HAL, cette version de RRI permet de capturer outre les informations sur la sémantiques des termes, des informations structurelles sur leur proximité. D’autre part, Semantic Vectors implante un certain nombre de mesures de similarité entre des groupes de mots, en particulier (i) la « disjonction quantique » (Cohen et al., 2010b) qui permet de construire un volume correspondant à plusieurs termes dans l’espace sémantique et de calculer la distance entre ce volume et d’autres termes ou documents de l’espace ; (ii) « similarité tensorielle » qui prend en entrée une suite ordonnée de termes et calcule sa similarité avec d’autres suites ordonnées, exploitant ainsi les informations d’ordre provenant des indexes positionnels. Semantic Vectors est utilisé dans nombre d’applications. Nous l’avons utilisé dans nos participations au DEFT depuis l’édition 2009. Dans des tâches proches de celle qui nous occupe, la librairie a été utilisée pour comparer RRI à d’autres méthodes d’espaces sémantiques pour la recherche de relations entre termes dans un corpus (Rangan, 2011). 3.2 Enrichir les espaces sémantiques avec des informations linguistiques Dans le problème d’attributions de mots-clés à un texte, les termes utilisés comme mots-clés sont, pour une partie d’entre-eux, des groupes de mots. La sémantique associée à un groupe de mots dans espace sémantiques n’est pas aussi précise que celle associé à un mot : elle comprend des composantes de ce mots dans d’autres contextes. Pour pouvoir traiter la sémantique de ces groupes de mots, certaines méthodes de représentation du sens en espaces sémantiques telles que BEAGLE (Jones et Mewhort, 2007), PSI (Cohen et al., 2009), ou encore RRI avec des indexes positionnels (Cohen et al., 2010b; Widdows et Cohen, 2010), permettent d’encoder les informations sur l’ordre des mots. Nous avons voulu tester une autre méthode basée sur une analyse linguistique de surface du texte. 1. http://code.google.com/p/semanticvectors/ Le principe de cette méthode est d’identifier des groupes de mots candidats dans le texte via une phase de chunking (Abney, 1991) puis de construire des classes d’équivalence de chunks qui regroupent une majorité de mots identiques (après lemmatisation des mots) et qui sont sémantiquement proches - en se basant sur la sémantique, dans un espace sémantique “classique”, des mots qu’ils contiennent -. Le corpus est alors transformé en remplaçant tous les chunks d’une même classe d’équivalence par un représentant de la classe et un nouvel espace sémantique est construit à partir de ce nouveau corpus, dans cet espace les représentants des classes de chunks sont considérés comme des mots. Pour les besoins de la Piste 1, le chunker a été entrainé pour considérer comme chunk tous les mots-clés composés de la terminologie fournie. Dans la Piste 2 ce même chunker, ainsi que la procédure de construction de classes de chunks, sont utilisés pour construire une liste de mots-clés candidats. 4 4.1 Affectation de mots-clés comme procédure de décision mixte Réseau Bayésien pour l’affectation de mots-clés En analysant un corpus d’articles, nous cherchons, dans un premier temps, à déterminer la taille des différents mots-clés rattachés à un article donné. Dans un second temps, nous nous efforçons d’établir les probabilités d’appartenance de ces mots-clés à une liste pré-établie. Nous disposons pour chaque document du corpus des informations suivantes : – les longueurs du résumé l et du texte L ; – la revue R dans laquelle l’article est paru ; – le nombre de mots-clés n et leurs tailles respectives n1 , . . . , nn (ie le nombre de mots les composant) ; – les similarités avec la totalité du lexique des mots-clés (d1 , . . . , dN ) (N taille de la terminologie) ; – les mots-clés (kw1 , . . . , kw n ). Il s’agit donc de trouver des relations entre les variables exogènes (l, L, R, n, d1 , . . . , dN ) permettant de prévoir le comportement des variables endogènes (n1 , . . . , nn , kw1 , . . . , kw n ). A cette fin, il faut disposer d’un formalisme de modélisation des connaissances adapté. Les réseaux bayésiens (Barber, 2012), étant des modèles graphiques auxquels sont associées des représentations probabilistes sous-jacentes, apparaissent comme particulièrement adaptés à notre cas d’étude. Un réseau bayésien B est un couple (G, θ ) où G est un graphe acyclique dirigé dont les noeuds représentent un ensemble de variables aléatoires X = {X 1 , . . . , X n } et θi = [P(X i /C(X i ))] est la matrice des probabilités conditionnelles du nœud i connaissant l’état de ses parents C(X i ). L’intérêt des réseaux bayésiens est donc que leurs structures graphique et probabiliste permettent de prendre en charge une représentation modulaire des connaissances, une interprétation à la fois quantitative et qualitative des données. En effet, le graphe d’un réseau bayésien permet ainsi de représenter schématiquement les relations entre les variables du système à modéliser et les distributions de probabilités, elles, permettent de quantifier ces relations. Le modèle que l’on se propose de construire est un réseau bayésien à variables discrètes (le nom de la revue R, les mots-clés kw i , leur nombre n, leurs tailles ni ) et à variables continues (longueurs du résumé l, de l’article L et les similarité à la terminologie). C’est un modèle mixte, appelé modèle conditionnel gaussien, pour lequel la distribution des variables continues conditionnellement aux variables discrètes est une gaussienne multivariée. Cela implique qu’il peut y avoir des arcs partant de noeuds discrets vers des noeuds continus, mais pas l’inverse hormis pour le cas où les noeuds continus sont observables (ce qui est notre cas). Notons également que le nombre de variables n1 , . . . , nn et kw1 , . . . , kw n varie selon le nombre de motsclés n ; le nombre de noeuds dans un réseau bayésien étant fixe, nous nous proposons de poser n1 , . . . , n25 , les tailles des différents mots-clés avec ni = 0 si i > n et kw1 , . . . , kw25 les différents mots-clés avec kw i = N U L L si i > n. Pour résumer nous disposons des variables aléatoires suivantes représentées par les noeuds du réseau bayésien que l’on cherche à construire : – – – – – – – R, le nom de la revue (variable discrète pouvant prendre 4 valeurs) ; l, la longueur du résumé (variable continue) ; L, la longueur de l’article (variable continue) ; n, le nombre de mots-clés (variable discrète pouvant prendre 25 valeurs) ; n1 , . . . , n25 , la taille des mots-clés (variable discrète pouvant prendre 11 valeurs) ; d1 , . . . , d1062 , les similarités à l’ensemble des mots-clés (variable continue) ; kw1 , . . . , kw25 , les mots-clés (variable discrète pouvant prendre 1062 valeurs). L’observation des distributions des documents entre les différentes revues nous permet d’affirmer que celles-ci sont similaires dans le corpus d’apprentissage et celui de test ; ce qui implique que le biais qu’introduit cette distribution n’impactera pas les performances du modèle à construire. Les moyennes des longueurs de résumé l et d’article L présentent le même ordre de grandeur. Ces moyennes ne sont certes pas similaires dans le corpus d’apprentissage et celui de test, mais elles sont distribuées de la même manière, ie que les longueurs de résumé (respectivement d’article) sont égales dans le corpus d’apprentissage et dans celui de test au même facteur près. Notons également que les longueurs d’article et de résumé ne sont pas distribuées de la même manière ; cela veut dire qu’en plus de la relation directe évidente entre ces deux variables, il existe probablement une cause commune aux deux, ce qui se traduit dans la structure du réseau bayésien par la présence d’un parent commun. Les distributions des nombres de mots par article (respectivement par résumé) peuvent être approximées par des mélanges de gaussiennes. Ces histogrammes sont similaires pour le corpus entier et pour celui d’apprentissage. Ce qui nous montre que l’échantillon étudié peut être considéré comme représentatif du problème. Toutefois, la relative disparité observée entre le corpus de test et celui d’apprentissage créera probablement un problème de biais qu’il faudra prendre en compte durant la construction du modèle. Les histogrammes des nombres de mots par article (respectivement par résumé) représentent pour les différentes revues des distributions différentes. Ces variables sont donc directement reliées à la nature de la revue. Ces différentes distributions ont des formes quelconques, cependant, nous remarquons que l’on pourra les approximer par un mélange de gaussiennes ; ce qui nous conforte dans le choix d’un modèle conditionnel gaussien pour représenter ces variables dans un réseau bayésien. En observant la monotonie des moyennes des similarités à la terminologie des mots-clés sur les différentes parties du corpus, nous remarquons qu’elle présente la même allure (et même quasiment le même tracé) dans tous les cas (corpus entier, corpus d’apprentissage, revue en particulier, . . . ). Cela nous permet de supposer que la sélection de mots-clés se fait strictement de la même manière partout, et donc l’idée d’en faire un modèle mathématique est parfaitement cohérente. Sur la base de ces différentes observations, prenons un exemple de structure de réseau bayésien reliant les variables de notre problème. Par convention, les variables discrètes sont représentées par des noeuds carrés, les variables continues par des noeuds ronds et les variables observables par des noeuds ombrés (figure 3). FIGURE 3 – Structure du réseau bayésien appris sur le corpus 4.2 Combiner des décisions statistiques avec du raisonnement à base de règles Les récents travaux en intelligence artificielle sur la combinaison de méthodes de décision statistiques et de raisonnement à base de règles de production, comme les Règles de Production Probabilistes (PPR) de (Aït-Kaci et Bonnard, 2011), nous offrent un cadre pour modéliser une procédure de décision qui prend en compte ce qui est appris par le réseau bayésien décrit ci-dessus, et les connaissances symboliques encodées dans les règles sur le choix des mots-clés dont nous avons donné des exemples en 2.3. Le principe de fonctionnement du système de décision, construit en se basant sur PPR, est de calculer un score pour chacun des mots-clés pour un document donné. Ce calcul est réalisé en utilisant des règles pouvant faire appel au réseau bayésien. Par exemple, la règle “les mots-clés sont différents entre eux” peut se traduire par la règle production “si deux mots-clés sont proches alors augmenter le score de celui qui est le plus haute probabilité d’être un mot-clé du document et réduire l’autre” qui s’écrit : IF similarity(kw1, kw2) > seuil AND bnproba(kw1|doc) > bnproba(kw2|doc) THEN increase-score(kw1, doc) AND decrease-score(kw2, doc) Le système de règles que nous avons utilisé contient une quinzaine de règles. Nous ne pouvons pas les détailler ici par manque de place. 5 Les exécutions soumises La table 1 résume les exécutions soumises par notre équipe. Ses résultats sont très satisfaisants pour toutes les approches que nous avons utilisé. La moyenne de F-score pour la Piste 1 pour l’ensemble des participants étant de 0,3575 et pour la Piste 2 de 0,2045. On notera que les premières exécutions pour les deux pistes (1.1 et 2.1) qui sont nos exécutions de base donnent des résultats corrects en des temps relativement bas. Run 1.1 1.2 1.3 Precision 0.4618 0.9479 0.7486 Rappel 0.4618 0.9497 0.7486 F-score 0.4618 0.9483 0.7486 Temps (en s) 2 7590 - 2.1 2.2 2.3 0.2438 0.3471 0.5879 0.2438 0.3471 0.5867 0.2438 0.3471 0.5873 26 269 12700 TABLE 1 – Résultats soumis : performance et temps d’éxecution 5.1 5.1.1 Piste 1 Run 1.1 – baseline : RRI et k-NN Dans cette exécution qui constitue notre baseline, nous avons construit un espace sémantique RRI avec l’ensemble des documents du corpus (appr + test), un document étant constitué par la concaténation du résumé et du corps de l’article. Puis pour chaque document d du corpus de test, nous avons retenu comme mots-clés les k plus proches voisins du document dans la terminologie, k étant le nombre de mots-clés pour le document d. Le vecteur pour un mot-clé kw i composé des mots w1 , ..., w n étant obtenu en sommant les vecteurs des mots qu’il contient. ~ i = Σi w kw ~i (1) 5.1.2 Run 1.2 – RRI(chunks), BN et règles Dans cette exécution, qui a obtenu le meilleur résultat, nous avons construit un espace sémantique “enrichi” comme nous l’avons décrit dans la section 3.2, mais dans lequel un document était représenté par quatre vecteurs, un pour le résumé, un pour le corps de l’article et deux vecteurs pour le premier et le dernier paragraphe de l’article (que nous avons pris comme approximation de l’introduction et la conclusion) . Nous avons ensuite appris le réseau bayésien décrit en 4.1 en utilisant les distances entres les documents et les mots-clés obtenues sur cet espace. Enfin, nous avons utilisé la procédure de décision décrite en 4.2 pour affecter un score à chacun des mots-clés, les mots-clés retenus sont les k ayant les plus hauts scores (k étant le nombre de mots-clés pour le document). 5.1.3 Run 1.3 Dans le cadre de ce run, on a combiné les résultats de run 1 et run 2, en donnant une légère préférence aux candidates-termes lesquels sont plus longues que d’autres termes-candidates. On a donc combiné, par exemple, les termes-candidates de run1 : Catalogne ; Narotzky ; conflit ; contexte ;district industriel ; femmes ; production traductionnelle ; production écrite ; réseau avec les termes-candidates de run 2 : Espagne ; Narotzky ; anthropologie économique ; district industriel ; féminisme ; histoire ; réseaux de production ; économie politique ; économie régionale pour obtenir la liste des candidates de run3 : district industriel ; réseaux de production ; économie politique ; production traductionnelle ; anthropologie économique ; Narotzky ; économie régionale ; production écrite ; féminisme Le score du candidat était calculé par la formule : scor e = F r ∗ (l − Fa ) (2) où F r est la fréquence relative du terme-candidat dans l’article analysé, Fa est la fréquence absolue du terme-candidat dans tous les articles du corpus et l est le nombre de caractères du terme-candidat. 5.2 5.2.1 Piste 2 Run 2.1 – baseline : RRI et k-NN Cette exécution est identique à la première exécution de la Piste 1 5.1.1, la terminologie obtenue par la méthode décrite en 3.2 contient 3000 candidats mots-clés. 5.2.2 Run 2.2 – RRI(PositionalIndex), Tensor Similarity et k-NN Dans cette deuxième exécution, nous avons utilisé la même terminologie que pour 2.1, mais l’espace sémantique a été construit en utilisant RRI sur des indexes positionnels. Le calcul des vecteurs de mots-clés utilise l’opérateur Tensoriel de Semantic Vectors. Les mots-clés retenus pour un document d sont les k plus proches voisins du document d dans la terminologie, k étant le nombre de mots-clés pour le document d. 5.2.3 Run 2.3 – RRI(chunks), BN et règles Cette exécution est identique à la deuxième exécution de la Piste 1 décrite en 5.1.2, la terminologie obtenu par la méthode décrite en 3.2 à laquelle on ajouté les mots-clés du corpus d’apprentissage elle contenaint 3270 candidats mots-clés. 5.3 Discussion Nous pouvons voir que les exécutions 1.2 et 2.3 sont celles qui obtiennent les meilleurs résultats, ce qui nous conforte dans nos hypothèses de départ. Les exécutions officielles nous ne permettent pas de comparer les performances des espaces “enrichis” par des chunks et des espaces RRI avec indexes positionnels, nous avons effectué une exécution 2.2bis avec un espace “enrichi” et k-NN le F-score obtenu est de 0.4186, le résultat est sensiblement meilleur que l’exécution 2.2. Rappelons que pour le 1.3, on a combiné les résultats de 1.1 et 1.2 de en donnant plus de poids aux candidates-termes longues (cette règle n’ayant pas été incluse dans le système de règles décrit en 4.2 ). Etant donné que le F-score obtenu (0.7486) se trouve au mi-chemin entre le F-score de 1.1 et de 1.2, nous ne pouvons pas réellement conclure quand à la pertinence de cette règle. Conslusion Dans cet article, nous avons présenté un système d’attribution de mots-clés à des articles scientifiques, qui se base sur des espaces sémantiques construit en utilisant RRI. Puis nous avons essayé d’améliorer les performances du systèmes par deux moyens : (i) en enrichissant les espaces sémantiques par des informations issues d’une analyse linguistique de surface, et (ii) en définissant une procédure de décision basée sur une combinaison de réseaux bayésiens et de systèmes à base de règles. Les résultats obtenus montrent que ces deux hypothèses se sont révélées payantes et qu’elles améliorent sensiblement les résultats obtenus par une approche RRI seul (qui obtient déjà des résultats honorables). Références ABNEY, S. (1991). Principle-Based Parsing, chapitre Parsing By Chunks. Kluwer Academic Publishers. AÏT-KACI, H. et B ONNARD, P. (2011). Probabilistic production rules. Rapport technique, IBM. BARBER, D. (2012). Bayesian Reasoning and Machine Learning. Cambridge University Press. BINGHAM, E. et MANNILA, H. (2001). Random projection in dimensionality reduction : Applications to image and text data. In in Knowledge Discovery and Data Mining, pages 245–250. ACM Press. COHEN, T., SCHVANEVELDT, R. et RINDLESCH, T. (2009). Predication-based semantic indexing : Permutations as a means to encode predications in semantic space. In Proceedings of the AMIA Annual Symposium, pages 114–118. COHEN, T., SCHVANEVELDT, R. et WIDDOWS, D. (2010a). Reflective random indexing and indirect inference : A scalable method for the discovery of implicit connections. Biomed Inform, 43(2): 240–256. COHEN, T., WIDDOWS, D., SCHVANEVELDT, R. et RINDLESCH, T. (2010b). Logical leaps and quantum connectives : Forging paths through predication space. In Proceedings of the AAAI Fall 2010 symposium on Quantum Informatics for cognitive, social and semantic processes (QI-2010). EL GHALI, A. (2011). Expérimentations autour des espaces sémantiques hybrides. In Actes de l’atelier DEFT’2011, Montpellier. HARRIS, Z. (1968). Mathematical Structures of Language. John Wiley and Son, New York. JONES, M. N. et MEWHORT, D. J. K. (2007). Representing word meaning and order information in a composite holographic lexicon. Psychological Review, 114(1):1–37. KANERVA, P., KRISTOFERSON, J. et HOLST, A. (2000). Random Indexing of Text Samples for Latent Semantic Analysis. In GLEITMAN, L. et JOSH, A., éditeurs : Proceedings of the 22nd Annual Conference of the Cognitive Science Society, Mahwah. Lawrence Erlbaum Associates. LANDAUER, T. K. et DUMAIS, S. T. (1997). A Solution to Plato’s Problem : The Latent Semantic Analysis Theory of Acquisition, Induction and Representation of Knowledge. Psychological Review, 104(2):211–240. LUND, K. et BURGESS, C. (1996). Producing high-dimensional semantic space from lexical co-occurence. Behavior research methods, instruments & computers, 28(2):203–208. RANGAN, V. (2011). Discovery of related terms in a corpus using reflective random indexing. In Proceedings of Workshop on Setting Standards for Searching Electronically Stored Information In Discovery Proceedings (DESI-4). SAHLGREN, M. (2006). The Word-Space Model : Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces. Thèse de doctorat, Department of Linguistics Stockholm University. VEMPALA, S. S. (2004). The Random Projection Method, volume 65 de DIMACS Series in Discrete Mathematics and Theoretical Computer Science. American Mathematical Society. WIDDOWS, D. et COHEN, T. (2010). The semantic vectors package : New algorithms and public tools for distributional semantics. In Proceedings of the Fourth IEEE International Conference on Semantic Computing (IEEE ICSC2010).