Calliope et le text-mining

Une brève introduction au « text mining » et à l’analyse des tendances

Lorsque vous étudiez votre domaine d’intérêt, on peut distinguer deux phases de travail : l’acquisition, puis l’analyses des données. L’acquisition est fréquemment effectuée grâce à divers outils et techniques logiciels (moteurs de recherche, agents intelligents, push, etc) de façon systématique ou bien à la demande.

L’étape suivante consiste à trier, classer et archiver l’information, en vue d’un usage immédiat ou différé. Alors seulement vient l’analyse.

Un objectif du processus complet est le suivi de la connaissance. La phase d’acquisition ne cesse jamais et le volume d’information disponible croît en permanence.

Cependant, bien qu’il soit toujours possible de présenter aux décideurs de large volumes d’information textuelle, l’aide à la décision par ordinateur demeure au stade de l’enfance: il est possible de trier et d’étiqueter des données pour faciliter leur perception et leur compréhension par les êtres humains, mais on ne sait pas encore déceler les signaux faibles et les tendances.

Dans les années passées sont apparus de nombreux outils explorant cette voie; tous voulaient remplacer la lecture textuelle par un symbolisme graphique: cartes thématiques, arbres de connaissance, cartes dendritiques, etc. Une fois passée la surprise de la nouveauté, les utilisateurs réalisent que:

  • les résultats des analyses automatisées dépendent évidemment de la pertinence des sources d’information, mais aussi de la qualité des pré-traitements linguistiques, sémantiques et statistiques;
  • les résultats des analyses automatisées confirment généralement un savoir déjà connu, ce qui démontre au moins – et au mieux – la validité et la qualité des méthodes et algorithmes sous-jacents. Cependant, il demeure malaisé ou impossible de détecter de nouvelles pistes, des signaux faibles, du « bruit constructeur », des évolutions en puissance, bref, tout ce qui est essentiel au suivi de la connaissance, à la prise de décision dans des contextes changeants, à la perception de nouveaux projets, idées, facteurs,objets, acteurs …et au fait que ceux-ci émergent, déclinent ou restent stables.

C’est exactement là que l’outil de text-mining (ou « fouille de textes ») Calliope montre sa différence: sa méthode d’analyse des tendances ajoute une dimension dynamique aux cartes thématiques, aidant l’utilisateur à interpréter les cartes représentant les différentes périodes temporelles d’un domaine.

Le but ultime est de trier les termes les plus significatifs des documents en trois catégories reflétant l’évolution de leur importance au sein du texte: termes émergents, stables ou déclinants. Cette analyse dynamique ne se substitue pas à l’appréciation et au jugement de l’utilisateur, mais lui suggère simplement des pistes de réflexion. Le seul questionnement « pourquoi ce terme prend-il de l’importance ? », au vu des graphes de Calliope, peut se révéler un stimulant de l’esprit. Calliope assiste l’utilisateur dans sa quête de réponses par l’interactivité de ses cartes, courbes de tendance et recherche de documents.