État de l'Intelligence Artificielle appliquée à l'Ingénierie de la Qualité 2021-2022
Section 3.2 : Traitement du langage

Chapitre 4 par Capgemini

Le NLP pour les recommandations en aval

Métier ●○○○○
Technique ●●●●○

Download the "Section 3.2: Inform & Interpret" as a PDF

Use the site navigation to visit other sections and download further PDF content

By submitting this form, I understand that my data will be processed by Sogeti as described in the Privacy Policy.*

Comprendre l'impact des changements est critique. Les connaissances des experts étant coûteuses en termes de temps et d'efforts, nous pourrions aussi considérer l'extraction de certaines connaissances à partir de documents structurés et non structurés.

La communication et les connaissances humaines sont capturées dans des documents. Ces documents sont de toutes tailles et de toutes formes dans les entreprises. Il s'agit presque toujours de documents textuels non structurés. Le code logiciel n'est développé qu'après la création de documents décrivant les modifications à apporter. Le cycle commence par un document sur les exigences, qui est ensuite transformé en un document de conception technique. Cette conception est ensuite mise en œuvre sous forme de code et vérifiée par des cas de test (un autre document texte non structuré).

Une expertise considérable est requise à chaque étape de la création de ce document. La figure ci-dessous montre la vue des documents du processus (selon le cycle de vie du logiciel utilisé, les noms de ces documents varient).

Figure: Documents view of the process

 

Dans cet article, nous allons nous concentrer sur deux cas d'utilisation que nous avons mis en œuvre à l'aide de NLP/NLU[1] et qui ont considérablement amélioré la qualité du processus. Les cas d'utilisation sont basés sur la compréhension des documents d'entrée pour donner des suggestions pour les cas d'utilisation en aval.

 


[1] https://fr.wikipedia.org/wiki/Traitement_automatique_des_langues 

Cas d'utilisation : Correspondance d'adresses

Les clients de l'assurance obtiennent des données de plusieurs systèmes sources. La loi impose à la compagnie de conserver des identifiants uniques pour chacun de ses clients, même si ceux-ci peuvent avoir plusieurs comptes et produits. Pour créer un identifiant unique pour le client, il faut automatiser la correspondance des adresses. Le problème est que les adresses dans les différents systèmes sources ne sont pas stockées de manière cohérente et qu'il y a beaucoup de données manquantes. Dans un système, il peut s'agir de l'Arizona, dans un autre de l'AZ et dans le troisième de données complètement manquantes. Pour compliquer les choses, de nombreux bâtiments dans les villes ont plusieurs clients. Un immeuble à New York compte plus de 1500 clients pour cette compagnie d'assurance, de sorte que le seul facteur de différenciation est le numéro de boîte postale ou le numéro de porte.

Les techniques de correspondance floue classiques ne sont pas performantes et sont également beaucoup plus lentes lorsqu'il s'agit de millions d'adresses. Les modèles NLP sont devenus très puissants depuis l'introduction de l'intégration des mots, qui consiste essentiellement à créer un proxy pour le mot d'entrée. Ce proxy est un vecteur, mais il a un contexte intégré s'il est formé avec des architectures de modèles comme BERT. Nous avons formé des modèles d'incorporation de phrases qui ont créé des vecteurs pour cette adresse d'entrée, puis nous avons effectué un clustering avec des encodeurs automatiques, ce qui a donné un très haut degré d'automatisation qui n'aurait pas été possible avec un effort manuel ou des techniques de correspondance traditionnelles..

La figure ci-dessous montre un échantillon de la mise en correspondance automatisée créée par l'outil. Il extrait également les règles à chaque étape qui peuvent être modifiées manuellement.

La figure ci-dessous montre un exemple de la cartographie automatisée créée par l'outil. Il extrait également les règles à chaque étape qui peuvent être modifiées manuellement.

Use case: Impact analyzer

Passer d'un document BRD à un document technique nécessite la connaissance des PME. Les PME ne sont pas facilement disponibles, ce qui entraîne des retards considérables dans la réalisation du document de conception, ce qui a un impact sur les délais et la productivité.

Nous utilisons des techniques d'extraction NLP pour extraire du BRD les éléments pertinents requis pour la construction des rapports. Nous avons ensuite filtré le texte pour en extraire les termes pertinents. À partir de ces termes, nous avons développé un algorithme de recommandation qui, à l'aide d'un mappage historique entre le BRD et les documents techniques, propose les règles et les éléments de données appropriés à partir du lac de données. Un ensemble de règles basé sur le support-confiance a été produit dans le but d'identifier les règles.

Un exemple d'extraction de règles basée sur le cadre Support-Confidence est donné ci-dessous. SPMF, qui est un outil open source, est utilisé pour l'extraction de règles.

 

empty

 

Une fois que les règles sont extraites et que leur exactitude a été testée, le système apprend en permanence comment les transactions sous-jacentes changent (les règles suggérées ont-elles été mises en œuvre ou y a-t-il un changement dans la mise en œuvre réelle). Cela modifie à nouveau le score de confiance de la règle et la recommandation pour le cycle suivant change.

Par exemple, dans le Business Requirements Document (BRD) pour le développement des rapports, le texte donné était "Dépenses en euros pour la plage de données sélectionnée". Il n'y avait qu'un seul poste de dépenses pour la carte dans le lac de données sous-jacent. Il était donc facile de le mapper et de le suggérer conformément aux règles historiques. Mais un autre élément - "Sélectionner la date" - était impossible à mapper. Il existe littéralement des centaines d'éléments de date dans le lac de données et tous sont fortement utilisés dans les rapports. Donc, cette partie de la date doit être faite manuellement - ce qui est la suggestion donnée par l'outil.

Ces moteurs de règles associatives ne fonctionnent bien que lorsqu'il y a un "support" raisonnable, qui est la première partie du cadre "Support-confiance". Il est peu probable que les éléments de données plus récents créés dans le système bénéficient d'un support. Nous avons donc dû combiner l'extraction de règles associatives avec l'extraction d'événements rares et appliquer des filtres autour de la date de création des éléments identifiés.

En d'autres termes, ces solutions ne dépendent pas entièrement du machine learning ou du deep learning. Il y a des éléments de logique commerciale ordinaire qui sont combinés pour donner de bons résultats aux utilisateurs.

About the author

Rajeswaran ViswanathanRajeswaran Viswanathan

Rajeswaran Viswanathan is the head of AI Center of Excellence in India. He has published many papers and articles. He is the author of proportion – A comprehensive R package for inference on single. Binomial proportion and Bayesian computations. It is most widely used for categorical data analysis. He has a passion for teaching and mentoring next generation of data scientists.

About Capgemini

Capgemini is a global leader in partnering with companies to transform and manage their business by harnessing the power of technology. The Group is guided everyday by its purpose of unleashing human energy through technology for an inclusive and sustainable future. It is a responsible and diverse organisation of 270,000 team members in nearly 50 countries. With its strong 50 year heritage and deep industry expertise, Capgemini is trusted by its clients to address the entire breadth of their business needs, from strategy and design to operations, fueled by the fast evolving and innovative world of cloud, data, AI, connectivity, software, digital engineering and platforms. The Group reported in 2020 global revenues of €16 billion.

Get the Future You Want  I  www.capgemini.com

 

 

 

Capgemini logo