Les RAG, une première génération d’IA expertes ?

Découvrez cet article rédigé par Nexialog Consulting sur ses nouveaux outils de chat LLM.

 

Par Vivien Brunel, Directeur Associé Data & Innovation et Marvin Suzanne, Consultant Senior Data chez Nexialog Consulting.

 

Les Large Languages Models (LLM) tels que ChatGPT et autres IA génératives permettent désormais de créer des programmes informatiques capables de rivaliser avec les hommes sur leur propre terrain, celui de la réflexion et de la création. Depuis plusieurs années, les outils conversationnels fournissent une assistance en ligne d’une qualité sans cesse croissante.

La véritable surprise de ChatGPT est de fournir une qualité de conversation sur des champs très larges. Les professionnels dans toutes les industries rêvent ainsi de l’outil ultime pouvant les assister dans leur champ d’expertise. Disposer d’un tel outil reste à ce jour un gageure, même si les innovations se multiplient à grande vitesse.

 

Les LLM ont des défauts intrinsèques pour des applications métiers spécifiques.

Tout d’abord, ils sont statiques, car il n’est pas possible de les réentraîner en continu pour les rafraîchir d’informations nouvelles. ChatGPT3 ne pourra intégrer dans ses réponses des informations postérieures à juin 2021, date photo à laquelle ses données d’entrainement ont été figées dans ses quelques 175 milliards de paramètres. Ensuite, bien qu’entraînés sur des quantités de données considérables, il leur manque le contexte précis de la question qui leur est posée (par exemple : “quels sont les critères de dégradation significative du risque de crédit dans la norme IFRS 9 de provisionnement des actifs financiers ?”). C’est pourquoi les réponses d’un LLM généraliste sur un domaine spécifique seront de mauvaise qualité, allant parfois jusqu’à l’hallucination.

Les IA généralisées ne sont pas encore au point ; adapter un LLM à un contexte spécifique (les normes comptables des actifs financiers par exemple), en s’appuyant sur une quantité limitée de données d’entraînement est une possibilité mais on lui préfère en général la solution RAG (Retrieval Augmented Generation).

 

La solution RAG

Le RAG utilise deux ingrédients : le LLM lui-même et une base de données externe au LLM contenant toute l’information pertinente au traitement du sujet posé. Cela peut être un corpus de documents PDF, des retranscriptions de chats passés ou tout autre type de documents. Ces données sont enregistrées dans une bibliothèque de connaissances qui sera accessible au LLM. Ainsi, sans modifier ou réentraîner le LLM, celui-ci pourra rechercher dans cette bibliothèque de connaissance les informations pertinentes au regard de la question posées dans le prompt.

Nous avons développé des RAG chez Nexialog Consulting permettant d’interroger les textes des diverses réglementations du secteur financier : réglementation des banques (Bâle 3), réglementation des assurances (EIOPA), normes comptables IFRS 9 et IFRS 17, réglementation des marchés financiers (ESMA), règlements sur la protection des données. Les réglementations sont de plus en plus nombreuses, de plus en plus complexes. Interroger les textes pour trouver les sources facilement apporte beaucoup de valeur et permet un gain de temps pour y retrouver l’information pertinente et assister les analystes dans la rédaction des documents.

Il existe d’autre alternatives pour améliorer la performance des applications des LLM à des thèmes spécialisés, tels que la conception d’un modèle dédié et spécialement entrainé ou encore un effort sur le prompt engineering. Mais que ce soit en termes de coûts ou de maîtrise du résultat fourni, le RAG reste à ce jour la meilleure solution.

 

Avantages et limites des RAG

Parmi les avantages du RAG, il y a la capacité de l’algorithme à rechercher et citer ses sources. Si nous prenons l’exemple d’un RAG permettant d’interroger les normes comptables IFRS 9, l’algorithme produira ses réponses sur la base des documents PDF décrivant cette norme. En plus de la réponse du LLM au prompt, le RAG renvoie les passages les plus pertinents des documents spécifiques. Cela permet à un expert de contrôler la bonne interprétation du prompt par l’algorithme et de vérifier le bon alignement entre la réponse formulée et les sources citées.

Tout n’est cependant pas rose au pays des RAG. Tout d’abord, les problèmes de confidentialité ne sont pas encore maîtrisés à l’instar de ceux générés par les LLM qui leurs sont sous-jacent. La tentation est pourtant grande de disposer d’outils puissants d’analyse d’information à différents niveaux des organisations, mais la possibilité de fuite d’information est réelle. La prudence est donc de mise en développant et utilisant des RAG.

 

L’enjeu de l’évaluation 

Enfin, l’intégration de tels outils dans des processus métiers nécessite de savoir les évaluer. Cela reste pour l’instant un sujet d’intenses recherches. Mettre en place des métriques semble en effet bien dérisoire pour évaluer la réponse d’un algorithme dont on attend plus un certain niveau de qualité que de précision. D’un autre côté, l’évaluation humaine est pertinente mais peut être subjective et sujette à des biais cognitifs. Différents experts vont produire autant d’opinions et les critères d’évaluation peuvent manquer de cohérence et de reproductibilité. A cela s’ajoute qu’une évaluation humaine prend plus de temps qu’une évaluation par la machine, et ce type d’évaluation aura une portée limitée.

Pour certaines tâches, comme la traduction par exemple, il est envisageable de comparer le résultat produit à un résultat déjà existant et réputé parfait sur un ensemble de cas tests. Ici encore, le nombre de tests d’évaluation sera limité et l’évaluation partielle, d’autant plus concernant des sujets spécifiques métier.

La question de l’évaluation dépend donc de la capacité de passage à l’échelle. Des RAG peuvent être testés par des LLM du type ChatGPT4. En soumettant à ChatGPT4 le prompt et la réponse et lui demandant une opinion, des chercheurs* ont montré sur quelques cas concrets qu’il était possible de déléguer une partie de l’évaluation des outils de chat à des machines.

Bien-sûr cette évaluation ne peut être absolue mais seulement relative. A ce jour, le RAG ne saurait supplanter l’expert. Utiliser un RAG est comme un exercice de rodéo : l’humain doit contenir les soubresauts de la machine s’il veut rester en selle et garder les résultats qu’elle produit sous contrôle.

Vivien Brunel

Directeur Associé Data & Innovation

Nexialog Consulting

Marvin Suzanne

Consultant Senior Data

Nexialog Consulting