Méthode

Comment utiliser Calliope ?

Utilisez Calliope modulairement pour satisfaire 2 besoins différents :

  1. extraction de terminologie : création de corpus, validation de vocabulaire, constitution de lexiques, pour l’indexation de corpus ;
  2. traitement de corpus indexés par la méthode des mots associés et l’analyse des tendances pour alimenter un grapheur tel que Gephi (http://gephi.org/), mais surtout pour un travail interactif avec les graphes des clusters et les courbes de tendance.
  1. extraction de terminologie
    Les fichiers textuels bruts alimentent le module "Preformat", qui crée les jeux de corpus XML de travail (le format standardisé XML est nécessaire pour alimenter les principaux modules de Calliope).

    Un module annexe vous permet si nécessaire de convertir un jeu de documents PDF en un corpus XML.

    Un module dédié vous permet d’afficher confortablement les corpus XML ainsi générés.

    Le module "Annotate" permet de créer et éditer les lexiques dédiés, dont les contenus sont revus et validés par l’utilisateur-expert. Le ou les corpus de travail XML sont indexés avec la terminologie validée.

  2. méthode des mots associés, analyse des tendances
    Le module "Process" éxécute les algorithmes qui sont au coeur de la méthode Calliope (analyse des cooccurrences, analyse des tendances), et produit 2 sorties principales:

    • des jeux de fichiers (noeuds et liens) pour un grapheur externe.
    • des résultats exploités interactivement par le module Viewer : cartes thématiques, cartes des classes de termes, courbes de tendance. Il est également possible de remonter aux documents correspondants, et de voir les corrélations avec les éventuels autres champs de données

Comprendre la logique de Calliope Annotate

Le module Calliope Annotate permet l’extraction des termes pertinents contenus dans des fichiers de corpus textuels. Cette extraction s’effectue en plusieurs étapes.

  • Avec Calliope Preformat, transformation des fichiers sources de documents en un seul corpus de format XML, respectant la structure logique des documents. Cette étape est simple et quasi-automatique.
  • L’extraction des termes contenus dans les corpus est automatique et fondée sur des traitements statistiques et linguistiques (élimination des mots vides, lemmatisation, etc…). Au terme de cette étape, l’utilisateur dispose d’un lexique des termes extraits. Bien que cette liste ne soit pas constituée de mots vides, certains termes sont des synonymes, d’autres sont trop génériques ou vides de sens dans le domaine analysé. Pour augmenter la pertinence des traitements avec Calliope Process, l’utilisateur devra alors soit valider ces termes, soit utiliser des lexiques de validation déjà existants.
    Paramètre : il faut préciser le seuil de fréquence minimale des termes extraits
  • Si aucun lexique de validation n’existe, l’utilisateur en construit un. Dans cette étape, il est assisté par le logiciel qui lui permet de retrouver les mots dans leur contexte, il peut obtenir aussi des listes classées par ordre alphabétique, ordre de fréquence… De toute la
    chaîne de traitements, c’est la seule phase qui soit longue et fastidieuse. Il faut compter environ 4 à 6 heures de travail pour un fichier de 500 Koctets (environ 150 pages A4 de texte). A l’issue de cette phase, l’utilisateur a trois lexiques : un lexique de vocabulaire contrôlé ou encore lexique de référence, un "antilexique" où encore un lexique de termes sans intérêt pour le domaine et enfin un lexique de termes de "synonymes". Ces 3 lexiques serviront de base à de nouveaux traitements d’extraction. L’utilisateur n’aura plus qu’à les enrichir par de nouveaux termes extraits et non encore validés, ce qui réduit considérablement son temps de travail.
    Il n’y a pas de paramètre à préciser
    A l’issue des traitements avec Calliope Annotate, chaque document en texte intégral pointe sur une liste de termes validés représentant son contenu.

Comprendre la logique de Calliope Process

Calliope Process est le cœur de cette suite logicielle, les résultats de ses traitements sont visualisés avec Calliope Viewer.  Calliope
Process comprend deux parties essentielles:

  1. une analyse automatisée du contenu d’un corpus XML de documents représentant une problématique à une période donnée,
  2. une analyse de la dynamique d’évolution de ces contenus à travers les corpus de documents périodiquement collectés.
  • Phase 1 et pour chaque période : Calliope Process applique des algorithmes de classification pour constituer des réseaux de mots thématiquement homogènes. Ses algorithmes sont fondés sur la "méthode des mots associés" qui stipule que deux mots régulièrement coocurrents dans les textes sous-tendent une même thématique. Les principaux thèmes sont ainsi automatiquement extraits par Calliope Process. On peut visualiser cette cartographie avec Calliope Viewer.

    Deux modes de calculs sont possibles : un mode automatique qui ne nécessite aucun paramétrage, Calliope Process se chargeant de faire un choix optimisé, et un mode "expert" qui laisse le choix à l’utilisateur pour fixer les paramètres. On peut comparer ces deux modes à la prise de photos :

    1. l’utilisateur appuie sur un bouton et la photo est prise dans les meilleures conditions de netteté, contraste…
    2. l’utilisateur souhaite prendre une photo avec des effets spéciaux pour rendre plus net tel objet ou tel visage, dans ce cas il joue sur l’effet de contraste, de netteté…
  • Phase 2 et à partir de deux périodes, Calliope Process quantifie automatiquement l’importance des termes dans une période en calculant leur "pouvoir d’attraction" c’est-à-dire, leur "taux de participation" à un réseau de mots constitué au cours de la phase 1. Si ce pouvoir d’attraction augmente d’une période à l’autre, le terme prend de l’importance et devient en quelque sorte émergent, si au contraire il décroit, il est alors vieillissant et enfin s’il ne varie pas il est considéré comme stable. Calliope Viewer permet de visualiser les courbes de tendance des différents termes. Il permet aussi leur filtrage suivant leur typologie (émergent, stable ou vieillissant).
    L’algorithme de quantification du pouvoir d’attraction ne nécessite aucun paramétrage.