L’importance stratégique du traitement automatisé du langage naturel
Le traitement automatisé du langage naturel est un élément stratégique du développement de l’Entreprise Autonome. Même si cette dernière s’affranchit de l’humain dans l’exécution de ses processus, il n’en est pas de même pour ses parties prenantes extérieures : les clients, les partenaires et toutes les entreprises en retard technologique et stratégique. Le premier point d’entrée étant la relation client où les informations textuelles non structurées sont légion : les mails, les appels téléphoniques, les courriers papier, voire les fax ! Plus largement, le langage naturel est la matière première de nombreux métiers, par exemple les juristes, les médecins, les administrations et les services tertiaires. L’Entreprise Autonome fait face à ce défi de traiter en automatique les informations textuelles non structurées, arrivant principalement au fil de l’eau. Et même si ce défi est immense, l’Entreprise Autonome dispose déjà d’un panel d’outils que l’on va examiner dans ce billet de blog.
Les fonctions applicables au langage naturel
Le tableau suivant présente les fonctions principales qui entrent en jeu dans une interaction entre les humains.
Fonction | Exemple |
Catégoriser | Classer un texte/propos dans un thème parmi plusieurs |
Extraire des entités lexicales | Trouver le sujet d’un verbe ou son complément d’objet direct |
Extraire des entités sémantiques | Trouver si le texte aborde le sujet de la découverte de l’Amérique |
Comparer des entités sémantiques | Dire si deux textes disent la même chose où s’ils se contredisent |
Extraire des relations sémantiques | Trouver les relations d’implication ou d’équivalence |
Questionner un texte | Quels sont les personnages de ce film ? |
Résumer | Réduire un texte aux idées principales |
Composer un texte | Convertir des idées principales en texte |
Contrôler la grammaire et l’orthographe | Vérifier si un texte respecte les règles de composition formelles ou usuelles |
Analyser le sentiment | Dire si un texte est positif ou négatif |
Traduire | Convertir un texte dans une autre langue en exprimant la même sémantique et construction |
Ces fonctions sont donc également à exécuter lors d’un interaction homme-machine.
De plus, il apparaît qu’un échange entre une personne et une machine est d’autant plus agréable que le medium est plus proche d’une interaction avec un humain sympathique ! Il y a deux niveaux à considérer :
- La pertinence sémantique : la machine répond-elle des choses censées et justes ?
- Le style : la machine apparaît-elle conciliante, didactique, détachée… ?
L’Entreprise Autonome accorde une importance capitale à la manière dont ses parties prenantes la perçoivent. Avoir la capacité de répondre à ses clients et partenaires avec zéro temps d’attente, 24h/24 et 7j/7, une expérience utilisateur équivalente ou meilleure à celle d’un centre d’appel ; tout cela est souvent un avantage compétitif majeur. Seule l’interaction en langage naturel (parlé ou écrit) offre ce potentiel. Adieu les formulaires rébarbatifs et les attentes interminables sur le centre d’appel.
Rêve ou réalité sur le Traitement Automatisé du Langage Naturel ?
Émergence du Traitement Automatisé du Langage Naturel (« TALN »)
Mais qu’est il vraiment possible de faire aujourd’hui en Traitement Automatique du Langage Naturel (appelé « TALN » dans la suite de ce billet) ? D’un point de vue historique, les projets TALN ont plutôt été des échecs parfois cuisants. La première approche était de croire que l’on pouvait résumer le langage à un jeu de règles et qu’il suffisait de les programmer pour qu’un système de TALN puisse fonctionner. Il s’agissait d’une vision déterministe telle que la linguistique l’a abordé depuis toujours. En fait la sémantique dépend de nombreux facteurs qui vont bien au delà des règles de grammaire. A titre d’exemples, les éléments suivants ont une importance critique sur la sémantique : Les multigrammes, l’ordre des mots, la distance entre les mots, les relations implicites entre mots en fonction du contexte global de la phrase. Illustrons ces propos par des exemples célèbres :
- petit chaperon vs petit chaperon rouge
- musique sacrée vs sacrée musique (G. Rossini)
- Le chat n’a pas traversé le chemin car il est trop large (on parle du chemin)
- Le chat n’a pas traversé le chemin car il est trop fatigué (on parle du chat)
On constate en pratique que le langage se comprend par l’accumulation des exemples de formes qui associés au contexte définissent le sens.
Les réseaux de neurones comme technologie de choix
La rapide croissance de l’Apprentissage profond a largement inspiré les chercheurs pour l’appliquer au Traitement Automatisé du Langage Naturel. Le seul problème est que l’apprentissage profond ne traite que que des nombres et pas des textes. Il faut donc arriver à passer du texte aux chiffres. Pour cela différents modèles ont été proposés comme la représentation vectorielle des mots et le comptage. De nombreuses variantes de représentation permettent ainsi de profiter des capacités d’apprentissage des réseaux de neurones en TALN. On se référera utilement à Gensim et Keras comme exemples de librairies capables de réaliser les fonctions présentées dans le tableau plus haut. La recherche progresse à très grande vitesse dans ce domaine et des traitements très élaborés sont déjà disponibles dans le cloud. Chaque jour de nouvelles capacités sont mises sur le marché avec toujours plus de précision.
Les applications du Traitement Automatisé du Langage Naturel à leurs balbutiements
En fait la révolution du Traitement Automatisé du Langage Naturel va avoir un impact très profond sur toutes les tâches administratives qui nécessitent de lire, catégoriser et extraire de l’information. Tous les métiers sont concernés, mais plus spécialement ceux du juridique, de l’édition et des back-offices réalisant des tâches de décodage de documents semi structurés (factures, notes de frais, rapports d’expertise, contrats…) S’intéresser le Traitement Automatisé du Langage Naturel est un devoir pour qui veut embarquer pour le monde de demain.
AVERATIO fournit des prestations de service dans le domaine du Traitement Automatisé du Langage Naturel. N’hésitez pas à nous contacter pour tout renseignement.