|
|

• Introduction
|
|
La richesse inexploitée des données textuelles
Les organisations sont productrices de données textuelles d'une richesse extraordinaire : statistiques, retour d'expérience sur des incidents, des accidents, règlements, procédures, documents d'avancement sur des projets, comptes rendus de réunions, études, rapports...
Malheureusement, au fur et à mesure que ces données s'accumulent, que ce soit sous forme papier ou au format électronique, leur accès diminue : que faire de centaines ou milliers de récits d'incidents de conduite ? qui peut affirmer qu'il n'y a aucune contradiction au sein des milliers de pages d'une réglementation ?
Pour ces bases de données, le plus souvent, l'exploitation s'appauvrit lorsque la masse de données s'accroit.
Les statistiques classiques, les moyennes n'ont aucun intérêt lorsque l'on recherche du sens au sein de milliers de rapports.
Savoir que les accidents du travail "en moyenne" donnent lieu à 49 jours d'arrêt n'aide pas beaucoup à définir des plans d'action pour améliorer la sécurité dans l'entreprise...
|

|
• Contexte et problématique
|
|
|
Traiter les données textuelles
Aujourd'hui, les chiffres ne suffisent pas à caractériser la richesse des situations que l'on a besoin de décrire. Il faut donc aussi traiter les données textuelles, sans pour autant être arrêté par la masse des documents disponibles.
Le domaine du facteur humain est appelé à se modifier avec le développement du traitement automatique des langues (TAL) qui permet de nouvelles approches pour traiter des données en langage naturel.
Certaines applications sont déjà connues comme la traduction automatique ou la correction grammaticale.
Dans le cadre de nos activités de conseil en fiabilité humaine dans les systèmes à risque, nous avons été souvent confrontés à la nécessité d’analyse de corpus importants en langue naturelle que ce soit des échanges entre opérateurs, des rapports d’événements, des main courantes, des documents projet…
Le traitement de cette information textuelle s’appuie sur de méthodes de catégorisation de contenu faute de pouvoir accéder directement au sens contenu dans ce format d’information. En effet, les langues naturelles se caractérisent par une grande diversité d’expression, de formes et de façon intrinsèque une ambiguïté d’expression qui ne peut être levée que par la prise en compte du contenu global du discours.
Le recours à la catégorisation est la méthode la plus généralement utilisée. Elle induit certains nombres de biais :
• La taxonomie utilisée doit pouvoir prendre en compte la plus grande partie de la diversité d’information contenue dans les textes ce qui peut conduire à la définition d’un grand nombre de catégories.
• La frontière entre les catégories peut être floue.
• L’évolution des contenus nécessite une mise à jour permanente de la taxonomie et de ce fait une ré-analyse des informations codées avant l’évolution de la taxonomie.
• Un coût important de mise en œuvre en termes de formation des « codeurs » et de temps de travail.
• La mise en place difficile d’indicateurs de cohérence pour garantir la bonne utilisation de la catégorisation.
• …
|

|
• Méthodologie et approche
|
|
|
l'analyse syntaxique
L'analyse linguistique pour la gestion de larges bases de données :
Une des façons d’appréhender les données en langue naturelle est d’avoir recours à un des méthodes et de modèles éprouvés dans le domaine de l’analyse automatique de texte. Chacune de ces méthodes est spécifique au traitement désiré. Il peut par exemple s’agir d’une analyse morphologique ou syntaxique des données textuelles. Nous procédons à l'analyse syntaxique des données confiées, après un traitement important sur le texte, et la confection d'ontologies* qui permettent de repérer des liens non seulement entre les termes d’un corpus mais aussi entre des concepts, ces liens n'apparaissant pas à l'œil nu dans d'aussi grands corpus. Ce type de traitement nous permet d’obtenir une analyse plus fine d’un corpus et de faire émerger des régularités et des récurrences qui à leur tour servent l’automatisation de certaines tâches.
De même, les nouvelles données entrant dans la base sont systématiquement analysées, et des spécificités par rapport aux données connues peuvent être mises en évidence pour la recherche des signaux faibles.
Parmi les applications qui permettent la gestion et le traitement de larges bases documentaires, la création d’ontologies est un exemple mais d’autres sont possibles comme la recherche et la gestion/classification d’informations, la construction de thésaurus ou de bases de concepts, etc.
* Une ontologie linguistique définit les mots ou l'usage contextuel de mots (dans un domaine particulier) ainsi que leurs relations (synonymie, hyponymie, ...).
|
|
|