Le NLP pour les recommandations en aval

Comprendre l'impact des changements est critique. Les connaissances des experts étant coûteuses en termes de temps et d'efforts, nous pourrions aussi considérer l'extraction de certaines connaissances à partir de documents structurés et non structurés.

La communication et les connaissances humaines sont capturées dans des documents. Ces documents sont de toutes tailles et de toutes formes dans les entreprises. Il s'agit presque toujours de documents textuels non structurés. Le code logiciel n'est développé qu'après la création de documents décrivant les modifications à apporter. Le cycle commence par un document sur les exigences, qui est ensuite transformé en un document de conception technique. Cette conception est ensuite mise en œuvre sous forme de code et vérifiée par des cas de test (un autre document texte non structuré).

Une expertise considérable est requise à chaque étape de la création de ce document. La figure ci-dessous montre la vue des documents du processus (selon le cycle de vie du logiciel utilisé, les noms de ces documents varient).

Dans cet article, nous allons nous concentrer sur deux cas d'utilisation que nous avons mis en œuvre à l'aide de NLP/NLU[1] et qui ont considérablement amélioré la qualité du processus. Les cas d'utilisation sont basés sur la compréhension des documents d'entrée pour donner des suggestions pour les cas d'utilisation en aval.

[1] https://fr.wikipedia.org/wiki/Traitement_automatique_des_langues

Cas d'utilisation : Correspondance d'adresses

Les clients de l'assurance obtiennent des données de plusieurs systèmes sources. La loi impose à la compagnie de conserver des identifiants uniques pour chacun de ses clients, même si ceux-ci peuvent avoir plusieurs comptes et produits. Pour créer un identifiant unique pour le client, il faut automatiser la correspondance des adresses. Le problème est que les adresses dans les différents systèmes sources ne sont pas stockées de manière cohérente et qu'il y a beaucoup de données manquantes. Dans un système, il peut s'agir de l'Arizona, dans un autre de l'AZ et dans le troisième de données complètement manquantes. Pour compliquer les choses, de nombreux bâtiments dans les villes ont plusieurs clients. Un immeuble à New York compte plus de 1500 clients pour cette compagnie d'assurance, de sorte que le seul facteur de différenciation est le numéro de boîte postale ou le numéro de porte.

Les techniques de correspondance floue classiques ne sont pas performantes et sont également beaucoup plus lentes lorsqu'il s'agit de millions d'adresses. Les modèles NLP sont devenus très puissants depuis l'introduction de l'intégration des mots, qui consiste essentiellement à créer un proxy pour le mot d'entrée. Ce proxy est un vecteur, mais il a un contexte intégré s'il est formé avec des architectures de modèles comme BERT. Nous avons formé des modèles d'incorporation de phrases qui ont créé des vecteurs pour cette adresse d'entrée, puis nous avons effectué un clustering avec des encodeurs automatiques, ce qui a donné un très haut degré d'automatisation qui n'aurait pas été possible avec un effort manuel ou des techniques de correspondance traditionnelles..

La figure ci-dessous montre un échantillon de la mise en correspondance automatisée créée par l'outil. Il extrait également les règles à chaque étape qui peuvent être modifiées manuellement.

La figure ci-dessous montre un exemple de la cartographie automatisée créée par l'outil. Il extrait également les règles à chaque étape qui peuvent être modifiées manuellement.

Use case: Impact analyzer

Passer d'un document BRD à un document technique nécessite la connaissance des PME. Les PME ne sont pas facilement disponibles, ce qui entraîne des retards considérables dans la réalisation du document de conception, ce qui a un impact sur les délais et la productivité.

Nous utilisons des techniques d'extraction NLP pour extraire du BRD les éléments pertinents requis pour la construction des rapports. Nous avons ensuite filtré le texte pour en extraire les termes pertinents. À partir de ces termes, nous avons développé un algorithme de recommandation qui, à l'aide d'un mappage historique entre le BRD et les documents techniques, propose les règles et les éléments de données appropriés à partir du lac de données. Un ensemble de règles basé sur le support-confiance a été produit dans le but d'identifier les règles.

Un exemple d'extraction de règles basée sur le cadre Support-Confidence est donné ci-dessous. SPMF, qui est un outil open source, est utilisé pour l'extraction de règles.

Une fois que les règles sont extraites et que leur exactitude a été testée, le système apprend en permanence comment les transactions sous-jacentes changent (les règles suggérées ont-elles été mises en œuvre ou y a-t-il un changement dans la mise en œuvre réelle). Cela modifie à nouveau le score de confiance de la règle et la recommandation pour le cycle suivant change.

Par exemple, dans le Business Requirements Document (BRD) pour le développement des rapports, le texte donné était "Dépenses en euros pour la plage de données sélectionnée". Il n'y avait qu'un seul poste de dépenses pour la carte dans le lac de données sous-jacent. Il était donc facile de le mapper et de le suggérer conformément aux règles historiques. Mais un autre élément - "Sélectionner la date" - était impossible à mapper. Il existe littéralement des centaines d'éléments de date dans le lac de données et tous sont fortement utilisés dans les rapports. Donc, cette partie de la date doit être faite manuellement - ce qui est la suggestion donnée par l'outil.

Ces moteurs de règles associatives ne fonctionnent bien que lorsqu'il y a un "support" raisonnable, qui est la première partie du cadre "Support-confiance". Il est peu probable que les éléments de données plus récents créés dans le système bénéficient d'un support. Nous avons donc dû combiner l'extraction de règles associatives avec l'extraction d'événements rares et appliquer des filtres autour de la date de création des éléments identifiés.

En d'autres termes, ces solutions ne dépendent pas entièrement du machine learning ou du deep learning. Il y a des éléments de logique commerciale ordinaire qui sont combinés pour donner de bons résultats aux utilisateurs.

About the author

Rajeswaran Viswanathan

Rajeswaran Viswanathan

Rajeswaran Viswanathan is the head of AI Center of Excellence in India. He has published many papers and articles. He is the author of proportion – A comprehensive R package for inference on single. Binomial proportion and Bayesian computations. It is most widely used for categorical data analysis. He has a passion for teaching and mentoring next generation of data scientists.

About Capgemini

Capgemini is a global leader in partnering with companies to transform and manage their business by harnessing the power of technology. The Group is guided everyday by its purpose of unleashing human energy through technology for an inclusive and sustainable future. It is a responsible and diverse organisation of 270,000 team members in nearly 50 countries. With its strong 50 year heritage and deep industry expertise, Capgemini is trusted by its clients to address the entire breadth of their business needs, from strategy and design to operations, fueled by the fast evolving and innovative world of cloud, data, AI, connectivity, software, digital engineering and platforms. The Group reported in 2020 global revenues of €16 billion.

Get the Future You Want I www.capgemini.com

We respect your privacy

We use cookies to improve your experience on our website. They help us to improve site performance, present you relevant advertising and enable you to share content in social media.

You may accept all cookies, or choose to manage them individually. You can change your settings at any time by clicking Cookie Settings available in the footer of every page.

For more information related to the cookies, please visit our cookie policy.

Cookies	Description
Registered visitor cookie	Cookie given to each registered user.
Registered visitor functionality cookie	Cookies used to remember the unique identifier given to each registered user.
Social plug-in content sharing cookie	Cookies set by services such as Facebook Connect or Twitter Button, which allow social networks users to share the content of our websites on social networks.
Unregistered visitor cookie	Cookies used to give to unregistered users a unique identifier in order to recognize them and to analyze how they use the website.
Analytic cookie	Cookies used to store URLs of the previous page visited, enabling to track users navigating from inside or from outside the website. If you click on a Sogeti advertisement on a non-Sogeti website, a cookie may be used to log which website you are on, in order to ensure our advertisements are served effectively and to measure whether our advertisements are viewed. Google Analytics: cookies set by Google analytics are used for web analytical purpose, but are not used to track individual users. For further information on how Google Analytics collects and uses information on our behalf and the right to use such cookies, please refer to the Google Analytics products and services privacy statement. If you object to your Personal Data being collected by Google Analytics, you may download and install the Google Analytics Opt-out Browser Add-on. Pardot: cookies set by Pardot are used to track users on our website. Visits are tracked for known users only. Unknown users are recorded as anonymous users. Please refer to Pardot privacy policy for any further information on their use and your rights related to the use of such cookies.

Le NLP pour les recommandations en aval

Download the "Section 3.2: Inform & Interpret" as a PDF

Use the site navigation to visit other sections and download further PDF content

Comprendre l'impact des changements est critique. Les connaissances des experts étant coûteuses en termes de temps et d'efforts, nous pourrions aussi considérer l'extraction de certaines connaissances à partir de documents structurés et non structurés.

About the author

About Capgemini