OpenAI, RAG ou fine-tuning ? EDF choisit les 3 pour l’IAGen
La R&D d’EDF s’est elle aussi emparée de l’intelligence artificielle générative pour concevoir de nouveaux produits et améliorer l’efficacité opérationnelle.
Les industriels de l’énergie, au même titre que la banque ou le retail, s’intéressent aux capacités de l’intelligence artificielle générative. Outre le déploiement à l’échelle de Copilot pour Microsoft 365, TotalEnergies développe ses propres services basés sur l’IAGen.
La multinationale a ainsi intégré un système RAG (Retrieval Augmented Generation) à son service de recherche pour la gestion des incidents de production. EDF, autre grand acteur de l’énergie, nourrit lui aussi sa maîtrise des technologies de l’IA générative comme l’explique Maud Imberty.
Des experts du NLP convertis en ingénieurs IAGen
La cheffe de programme R&D remplaçait Carmen Munoz (Directrice Recherche Aval chez EDF) à l’occasion des Ateliers de l’IA. Et si la maîtrise est jugée essentielle, c’est notamment pour des raisons de “souveraineté.”
Cette préoccupation n’est pas nouvelle cependant, ajoute l’experte. “Sur la maîtrise de nos données et de nos modèles, nous travaillons depuis des années sur le NLP. Nous disposons d’équipes de recherche fortes et construites sur ces technologies et qui deviennent des ingénieurs en IA générative.”
La question de la souveraineté ne se résume pas à la consommation de solutions françaises ou européennes. L’enjeu est aussi celui de la performance opérationnelle, précise Maud Imberty. Les compétences en IAGen sont également nécessaires à l’énergéticien pour concevoir de nouveaux services.
Pour atteindre ces ambitions, la représentante de la R&D reconnaît que des verrous restent à crocheter. Ceux-ci, comme les hallucinations, sont notamment techniques. “Les hallucinations et les cas récents médiatisés dans la presse nous encouragent à la prudence en ce qui concerne l’exposition à l’externe”, déclare-t-elle.
L’objectif complexe des supers assistants
Banques et assurances partagent cette prudence et ont ainsi décidé de déprioriser ou de mettre en pause les développements en IA générative axés sur les clients. Priorité donc, comme chez EDF, aux usages internes au bénéfice de la performance de l’entreprise.
Ces applications de l’IAGen passent, entre autres, par la fourniture “de supers assistants que chacun peut avoir à portée de main.” EDF s’est d’ailleurs intéressé aux premiers modèles de Transformers rendus disponibles en 2017, dont Bert et CamemBERT, sa déclinaison française.
“La question de l’industrialisation reste délicate, mais nous étions capables de les prendre en main et de les utiliser”, témoigne Maud Imberty. Depuis, les modèles de Transformers ont profondément évolué, en particulier en termes de taille.
L’experte souligne aussi leur caractère “boîte-noire”, une particularité qui exige dès lors des précautions d’usage. La R&D d’EDF monte donc en compétence sur ces modèles pour en contrôler les spécificités et les risques.
Un travail collectif et en écosystème sur les modèles
Ce travail nécessite un effort collectif. “Nous avons besoin d’un écosystème fort pour faire de la veille, tester les modèles et identifier la bonne manière de les implémenter dans le cadre de cas d’usage offrant de la valeur pour le métier.”
Pour déployer l’IAGen, la professionnelle de la recherche rappelle que trois approches sont possibles : le recours aux API et aux solutions de tiers (dont OpenAI), le RAG et le fine-tuning de modèles. La première solution, qui nécessite de consommer du service cloud de fournisseurs américains, présente “un danger”.
Néanmoins, “ces modèles sont extrêmement performants”, précise-t-elle. EDF ne cantonne pas à une seule voie et exploite les trois alternatives dans ses développements. Le choix est affiné en fonction des cas d’usage.
Et encore une fois, Maud Imberty appelle à la constitution d’un écosystème français robuste et à l’engagement d’une démarche collective. “Il est essentiel que nous collaborions pour accélérer l’amélioration de notre performance grâce aux modèles d’IA.”
Petit ou grand modèle ? Une équation technique et économique
A chaque approche sa complexité et ses coûts. Le fine-tuning est long, complexe et coûteux, notamment en énergie. L’entraînement génère une dépense énergétique, mais l’inférence aussi. Le démonstrateur conçu par EDF avec ILLUIN Technology en 2023 a permis de mesurer le coût d’une question à 8kw.
Une équation, économique notamment, est donc à résoudre concernant le choix du modèle. Plusieurs paramètres sont à prendre en compte : coût énergétique, difficulté d’implémentation et facture pour l’entreprise lors de l’utilisation.
Des modèles de plus petite taille, “plus spécialisés, orchestrés, plus facilement implémentables”, peuvent ainsi s’avérer préférables. Maud Imberty insiste également sur les enjeux éthiques liés à l’utilisation de l’IAGen.
“Je suis persuadé que la recherche française et l'entraînement de modèles sur des données contrôlées, sans biais éthique, certifiées, sont des moyens d’être plus vertueux. L’AI Act constitue également une perspective réjouissante en matière d’éthique”, considère-t-elle.
Guides à télécharger
Les Guides Data Platforms de Orkestra-data : deux ouvrages complémentaires consacré à la Dynamique des Data Platforms et au Panorama des Data Platforms.
▶ dans la Dynamique des Data Platforms, on explique ce qui justifie cette convergence, par des principes forts comme la donnée qui devient un produit, ou les nouvelles organisations de type Data Mesh et on détaille les différentes fonctions d’une Data Platform.
▶ dans le Panorama des Data Platforms on passe en revue une trentaine de solutions proposées par des éditeurs, on les décrypte et on présente les tendances du marché à suivre.
Pourquoi et comment me contacter ?
Vous êtes CDO, experts de la Data et de l’IA dans une organisation utilisatrice et vous souhaitez partager un retour d’expérience ou mettre en lumière une thématique ? Alors contactez-moi sur LinkedIn.
Vous êtes fournisseur, société de conseil ou éditeur et vous souhaitez proposer du contenu qualitatif à une audience ciblée en figurant dans la newsletter Secrets de Data ? Discutons-en ! [Offre payante]