Data & IA : 10 ans de transformations et des défis persistants
Bilan d'une décennie explosive Data &IA. Les priorités pour l'avenir des entreprises et du secteur public : passer du POC à la stratégie, et de la performance à la responsabilité.
Entre l'effervescence de l'Open Data et le choc de l'IA générative, un cadre légal sans précédent a émergé, tandis que les organisations peinent encore à transformer l'expérimentation en valeur industrielle.
2015 à 2025 : Une décennie de fondations
Le secteur public a été un initiateur clé du mouvement de la donnée en France. Inspiré par des initiatives étrangères, comme celles de la Californie en 2007, le pays a vu naître ses premières stratégies d'ouverture des données publiques (Open Data).
S’inscrire à l’afterwork Denodo
Mais c'est la "Loi pour une République numérique" qui a véritablement posé les fondations, en lançant des sujets pionniers comme la transparence algorithmique et en faisant émerger l'idée d'un "service public de la donnée".
Cette période a été marquée par l'engouement pour la "Smart City" entre 2015 et 2020, mais aussi par la naissance des enjeux éthiques, illustrée par la charte de Nantes en 2019 ou la "convention citoyenne sur l'IA à Montpellier". Cette décennie a consacré la data comme un pilier de l'action publique.
"Le sujet de la data en 10 ans s'est installé comme étant un objet de politique publique et un objet au service des politiques publiques", réagit Jacques Priol, président de Civiteo et co-fondateur de l’Observatoire Data Publica.
Mais cette effervescence dans le secteur public ne s'est pas faite sans garde-fous. Au contraire, elle a coïncidé avec une vague réglementaire sans précédent, façonnant le terrain de jeu pour toutes les organisations.
Du RGPD à l'AI Act
Les dix dernières années ont vu la mise en place d'un "panel de réglementation un peu étourdissant", avec le RGPD comme texte fondateur. Selon l'analyse de l'avocate Stéphane Baikof, le droit "court un petit peu après la technique" : le RGPD a suivi le scandale Prism, et l'IA Act est arrivé dans le sillage de ChatGPT.
Ces deux textes européens partagent des points communs fondamentaux : une portée extraterritoriale, une approche par les risques, et surtout un principe de responsabilité qui représente un véritable "changement de paradigme". Finies les déclarations préalables. Les acteurs doivent désormais être capables de démontrer leur conformité en permanence, documentation à l'appui.
La montée en puissance de la CNIL
Parallèlement, la CNIL (Commission Nationale de l'Informatique et des Libertés) a connu une transformation majeure. Grâce au RGPD, elle est passée d'une autorité principalement pédagogique à un régulateur doté d'un pouvoir de sanction dissuasif.
Comme le rappelle l'avocat Maël Fablet d’EY, l'échelle des sanctions a changé, passant d'un plafond de 150.000 € à des amendes pouvant atteindre 4% du chiffre d'affaires mondial. Mais au-delà de sa capacité à "taper fort", la CNIL a aussi renforcé son rôle d'éducateur.
Elle est devenue, avec l’ICO Outre-Manche, l'une des autorités les plus prolixes d'Europe en matière de production de guides pratiques et de documentation, accompagnant les acteurs dans la mise en conformité.
La transformation de la donnée dans l'entreprise
Le secteur privé a lui aussi radicalement changé son regard sur la donnée. Autrefois perçue comme une "matière froide", simple "rétroviseur" pour le reporting, elle est devenue une "matière bouillante", la "matière première de toute une économie", considère Mick Levy, directeur stratégie & innovation d’Orange Business.
Cependant, poursuit-il, malgré cette prise de conscience, de nombreuses entreprises n'ont pas encore pleinement saisi cette opportunité pour transformer cet actif intangible en valeur concrète. "J'avais écrit un livre il y a 4 ans que je vous invite toujours à lire qui s'appelle Sortez vos données du frigo. L'idée, elle est toujours là", illustre le consultant.
2025 - Entre maturité et défis persistants
L'industrialisation des projets constitue sans aucun doute l'éternel défi des organisations. Un chiffre reste obstinément stable : environ 85 % des projets data et IA échouent à être industrialisés ou à générer un retour sur investissement visible.
Selon Mick Levy, les raisons de cet échec persistant sont triples :
• Culture et prise de conscience : Le niveau de conscience des dirigeants sur la valeur de la donnée en tant qu'actif stratégique demeure "hyper bas", ce qui freine les investissements.
• Budgets inadaptés : Les entreprises financent des "POC" peu onéreux, mais sans anticiper que l'industrialisation exigera un budget "x 20". Ce manque de vision bloque systématiquement le passage à l'échelle.
• Absence de stratégie : Trop peu d'organisations disposent d'une véritable stratégie Data & IA, portée par la direction générale, qui intègre gouvernance, organisation et moyens sur le long terme.
Le secteur public, un acteur en pointe. Surprise ?
Contrairement aux idées reçues, le secteur public, notamment local, fait preuve d'une maturité surprenante. D'après Jacques Priol, plus de 70% des collectivités territoriales (hors très petites communes) ont engagé des projets de pilotage par la donnée, et plus de 50% ont lancé des projets d'IA.
Ce dynamisme est motivé par la recherche d'efficience, mais aussi par des enjeux de marketing territorial, pour renforcer l'attractivité, et de marque employeur pour attirer des talents. Ces acteurs innovent même sur le plan juridique, en intégrant des clauses de propriété intellectuelle sur les données utilisées pour entraîner des IA.
Le RIA nouvelle donne réglementaire
Avec l'IA Act, l'Europe dispose d'un nouveau cadre réglementaire majeur. Sa mise en œuvre en France sera partagée entre plusieurs autorités (DGCCRF, DGE, etc.) et non centralisée par la CNIL. Les entreprises doivent se préparer à des échéances clés :
• Août 2025 : Obligations pour les IA à usage général, notamment sur la documentation technique et la conformité au droit d'auteur.
• Août 2026 : Obligation de transparence, imposant que les contenus soient "marqués comme ayant été générés par de l'intelligence artificielle" et que les agents conversationnels s'identifient explicitement ("Attention, je suis une IA").
Propriété intellectuelle et GenAI indissociables
L'essor de l'IA générative a placé le droit d'auteur au centre d'un conflit complexe. Maël Fablet souligne l'impossibilité pratique pour les créateurs de modèles de demander l'autorisation à chaque auteur.
L'Europe dispose depuis 2019 d'une exception de "fouille de texte et de données" (Text and Data Mining), qui autorise cet usage sauf opposition expresse de l'auteur.
Pour rendre ce droit effectif, l'Europe travaille à la mise en place d'un répertoire où les créateurs pourront déclarer leur refus que leurs œuvres servent à l'entraînement d'IA.
2025-2035 - Stratégie, responsabilité et sobriété
Les priorités pour les organisations ne changeront pas radicalement au cours de la prochaine décennie. Elles portent sur la recherche de la valeur et les cas d'usage stratégiques. D’ici 2035, les organisations doivent dépasser la peur de "passer à côté du train" (FOMO) pour se concentrer sur la définition de cas d'usage précis et stratégiques, préconise Mick Levy.
Le cadre juridique, loin d'être une simple contrainte, doit être vu comme un guide. Comme le souligne Maël Fablet, l'AI Act n'est "ni plus ni moins que la transcription de problématique éthique" en réglementation. Il offre une structure pour cadrer la stratégie et s'assurer que l'innovation se développe de manière responsable.
Des impératifs sociétaux et environnementaux
L'avenir de l'IA se jouera sur de nouvelles frontières de la responsabilité d'entreprise. La préoccupation concernant son impact écologique monte en puissance, appelant à un "usage sobre". Stéphane Baifok rend cette notion tangible en rappelant qu’une conversation de deux minutes avec Copilot consomme déjà l'équivalent d'un "dé à coudre d'eau".
Parallèlement, Mick Levy met en garde contre les risques sociétaux, évoquant le "techno-fascisme" et la nécessité d'être conscient de la vision politique que les technologies importées peuvent véhiculer. En dix ans, la data et l'IA sont passées d'un sujet technique à un enjeu stratégique, juridique et sociétal majeur, dont toutes les organisations doivent désormais se saisir avec lucidité.
Entre souveraineté, agents autonomes et gouvernance Data
Le salon Data & IA de Nantes soufflait le 16 septembre ses 10 bougies. Secrets de Data vous propose une sélection de conférences brossant un tableau dense, mais non exhaustif, des enjeux qui animent aujourd'hui l'écosystème
Retours d'expérience sur l'industrialisation des plateformes Data, débats sur la souveraineté numérique et les moyens de la traduire dans les SI, émergence des agents IA et impératifs de la gouvernance : tour d’horizon de sept sessions choisies.
1. Covéa & Orange Business : La quête d'une souveraineté IA pragmatique
Intervenants : Erwan Josse (manager Data Science & IA, Orange Business) et Antoine JOUSSE (head of AI Factory, Groupe Covéa)
Sujet : cette conférence détaillait la trajectoire d'un grand groupe assurantiel, Covéa, pour réduire sa dépendance aux hyperscalers américains et construire une stratégie d'IA plus souveraine, en collaboration notamment avec Orange Business.
Idées fortes
• Quatre niveaux de maturité IA : Covéa structure sa transformation IA selon quatre stades : individuel (outils type Copilot), équipe (expérimentations), processus (IA intégrée aux métiers comme la gestion de sinistre) et disruption (réinvention d'un métier, ex: protection juridique).
• Dépendance technologique assumée : Pour aller vite et apprendre, Covéa a massivement adopté la stack Azure, notamment les services propriétaires comme Cognitive Services et Azure OpenAI. Cela a permis d'accélérer la mise en production, mais a généré en contrepartie une forte dépendance.
• Les trois enjeux de la souveraineté : Le risque de dépendance numérique est illustré par un article prospectif du délégué général du CIGREF imaginant une coupure du Danemark des services cloud américains. Ce risque se décline en trois enjeux majeurs :
1. Indépendance géopolitique : Être exposé à des lois extraterritoriales comme le Cloud Act et FISA 702, qui obligent les fournisseurs américains à donner accès aux données sur demande des agences américaines.
2. Transparence des modèles : La nécessité de contrôler les modèles (boîtes noires) pour répondre aux exigences de l'AI Act, éviter les biais et maintenir la confiance des utilisateurs (dont clients finaux) et des métiers.
3. Autonomie commerciale : Se prémunir du "vendor locking" et des augmentations de prix imprévisibles, comme l'a illustré le cas Broadcom/VMware, par exemple.
• Une stratégie de "désensibilisation" : La solution n'est pas un "Big Bang" anti-cloud US, mais une approche progressive. Covéa a testé des alternatives souveraines comme la plateforme française LightOn, qui s'est révélée pertinente pour des usages de type "ChatGPT d'entreprise", mais moins mature pour des intégrations API complexes.
"On est vraiment en train de travailler notre désensibilisation à ces éditeurs-là et pour pouvoir disposer d’un plan B et pouvoir l'activer quand on nous demandera de l'activer", déclare Antoine Jousse.
La stratégie finale consiste à :
Continuer à utiliser les hyperscalers pour l'innovation et l'apprentissage.
En parallèle, monter des infrastructures internes ou sur des clouds souverains pour disposer d'un "plan B" en cas de crise.
Remplacer progressivement les composants les plus "liants" (ex: Azure Search) par des alternatives open-source pour faciliter une future migration.
2. Carrefour : La "colonisation" par les agents IA
Intervenant : Guillaume Blaquiere (Group Data Architect, Carrefour)
Sujet : un retour d'expérience très concret sur la création et l'évolution d'agents IA pour automatiser le support de la Data plateforme de Carrefour, illustrant les défis d'intégration bien au-delà du simple PoC.
Idées fortes
• Le problème initial : Une forte lassitude des experts de la Data plateforme, contraints de répondre sans cesse aux mêmes questions posées par les nouveaux utilisateurs sur un Google Chat Space.
• La solution : l'agent RAG : L'idée fut de créer un agent apprenant de l'historique des conversations pour répondre automatiquement. L'architecture initiale reposait sur Google Chat, Pub/Sub, Cloud Run, Vertex AI Search Engine et Gemini.
• Le calvaire de l'intégration : La principale difficulté n'a pas été l'IA, mais l'intégration avec l'écosystème existant. Guillaume Blaquiere n’épargne pas les API de Google Chat. Des problèmes d'authentification (comptes personnels obligatoires) et de stabilité ont nécessité des contournements complexes.
"Ne sous-estimez jamais la difficulté d'intégrer les agents à votre écosystème. [...] C'est pas aussi fun que de la GenAI, c'est de l'informatique assez basique, assez classique mais c'est pas facile", prévient le Data Architect.
• Évolutions et améliorations : L'agent a été enrichi itérativement :
◦ Apprentissage du silence : une logique pour que l'agent ne réponde pas ("no signal") lorsqu'il n'a rien de pertinent à dire et éviter de polluer le fil de discussion.
◦ Ajout de sources de connaissances : Intégration de la documentation Confluence et de Google Sheets pour enrichir ses réponses.
◦ Ajout d'actions : Une tentative de création automatique de tickets Jira, abandonnée car elle générait trop de "bruit".
• Le saut qualitatif avec ADK : L'adoption du framework ADK (Agent Development Kit) de Google a permis de simplifier radicalement le code, de séparer la logique "middleware" de la logique "agentique", de gérer nativement les sessions et de s'interfacer plus facilement aux services Vertex AI.
• Le choix du modèle : L'expérience a montré que si Gemini 1.5 Flash est efficace pour la plupart des cas, Gemini 1.5 Pro, plus cher et plus lent, a été nécessaire pour des tâches nécessitant un raisonnement plus fin, Flash ayant confondu un "ticket d'incident" avec un incident technique le concernant lui-même.
3. Vorwerk & Avisia : Prédire les Ventes du Thermomix face aux Imprévus
Intervenants : Corentin JEZEQUEL (Head of Data & Analytics, Vorwerk France), Agathe Demagny (Consultante ML Engineer, AVISIA) et Gaspard Rohr (Responsable du Développement Ouest, Avisia)
Sujet : le retour d'expérience portait sur la création d'un modèle de prédiction des ventes pour le Thermomix, un projet confronté à un modèle commercial atypique et à des perturbations de marché imprévues.
Idées fortes
• Un besoin business stratégique : Le projet visait à objectiver les prévisions de ventes pour aligner le marketing et la finance, optimiser les stocks, et dimensionner les équipes du service client.
• Des données et un modèle complexes : La prédiction est rendue difficile par un modèle de vente basé sur des conseillers non-salariés, des promotions fréquentes et variées, et des concours internes qui influencent fortement l'activité. De plus, la pandémie de Covid-19 a provoqué un pic de ventes massif, à contre-courant de nombreux secteurs.
• Deux modèles pour deux usages :
1. Un modèle quotidien à court terme pour le dimensionnement du centre d'appels.
2. Un modèle mensuel à plus long terme (prévision sur 12 mois) pour les budgets et la gestion des stocks, capable de simuler l'impact de nouvelles offres.
• Approche technique : Le choix s'est porté sur un modèle LightGBM, jugé efficace et rapide à implémenter dans le cadre d'un projet de deux mois. Un travail important de feature engineering a été mené pour modéliser l'impact des offres (création d'une échelle de "conséquence" des offres) et utiliser les ventes de l'année précédente comme référence.
• L'épreuve du réel : Le principal défi fut la sortie du nouveau Thermomix (TM7) en février 2025, une information non disponible lors de la conception du modèle. Cet événement a rendu les prédictions initiales caduques pendant plusieurs mois. Cependant, le modèle a démontré sa résilience en retrouvant une performance cible (environ 10% de marge d'erreur) dès que le marché s'est stabilisé (depuis juin-juillet 2025).
"Maintenant, il va falloir améliorer le modèle parce qu'en fait on voit qu'il y a des nouvelles variables à intégrer au fur et à mesure. [...] Le marketing a toujours plein de créativité avec des nouvelles choses", annonce Corentin Jezequel.
4. Devoteam : construire sa Data Plateforme "as a Product"
Intervenant : Erwan Simon (Devoteam)
Sujet : La présentation décrivait l'approche adoptée par un grand groupe média pour construire une Data plateforme, non pas comme une infrastructure monolithique, mais comme un produit modulaire. L’objectif premier était de faciliter la montée en charge et l'industrialisation des cas d'usage Data.
Idées fortes
• Du monolithe au microservices : L'approche traditionnelle d'une brique de processing centrale (ex: un cluster EMR) pour tous les jobs data pose des problèmes de traçabilité des coûts, de "noisy neighbors" (un job peut impacter tous les autres) et de complexité des évolutions.
• Pattern "Data Processing as a Microservice" : L'alternative mise en place consiste à dédier une brique de processing serverless (EMR Serverless ou ECS Fargate) à chaque job. Cette architecture décentralisée offre une traçabilité des coûts par cas d'usage, une isolation des pannes et des évolutions fiabilisées brique par brique, sans surcoût grâce au serverless.
• Le Framework "Data Platform" : Pour éviter la redondance de code (Terraform, Python) qu'implique cette approche, un framework interne a été créé, composé de trois briques :
1. Airflow DAG Generator : Une librairie qui génère dynamiquement les DAGs Airflow à partir d'un simple fichier de configuration YAML, abstrayant la complexité pour les data engineers.
2. Pipeline Factory : Un module Terraform qui déploie l'infrastructure de processing (la "micro-brique") en se basant sur le même fichier YAML.
3. Datalake SDK : Une librairie Python (boîte à outils) qui mutualise les fonctions récurrentes (lecture/écriture dans le datalake, gestion des secrets, exécution de requêtes SQL) pour simplifier le code des jobs.
• Bonnes pratiques d'un produit software : Pour assurer la pérennité du framework, plusieurs pratiques ont été adoptées. Cela comprend des tests fonctionnels systématiques, un versioning strict des releases (pour ne pas impacter les pipelines existants), un Maintien en Condition Opérationnelle (MCO) des anciennes versions et un contrat d'interface stable.
• Le Dilemme "Buy vs. Build" : La question de construire sa propre plateforme ou d'utiliser une solution managée (type Databricks) se pose de plus en plus. La réponse doit être guidée par des KPIs objectifs (ex: le time-to-prod des cas d'usage). Tant que la plateforme interne répond aux besoins et reste maintenable, elle offre une maîtrise de la stack et de la roadmap.
5. Nickel & Engie : La Data gouvernance, un levier de performance
Intervenants : Thierry Mulot, Chief Data Officer d'Engie France (BtoC), Fatima ID ABDELLAH - VALETTE, Chief Data Officer de Nickel et Mélanie Bruggeman (DatAround)
Sujet : Un échange croisé entre les CDO de Nickel et Engie B2C sur la mise en place de la Data gouvernance, non pas comme une contrainte réglementaire, mais comme une démarche stratégique essentielle pour déverrouiller la valeur de la donnée et engager les métiers.
Idées fortes
• La gouvernance par l'usage : Chez Engie, la gouvernance a été initiée en réponse aux métiers qui, en utilisant les outils de self-BI, constataient eux-mêmes la mauvaise qualité des données. Le constat métier a été mis à profit par l'équipe Data pour responsabiliser les métiers. La qualité des données dépend en effet de leurs propres processus.
• Trouver le ROI de la gouvernance : Pour obtenir le sponsoring du CODIR, il est crucial de démontrer la valeur financière de la démarche. Thierry Mulot (Engie) cite l'exemple de la facturation. En améliorant la qualité des données de facturation, l'entreprise évite des pertes significatives, finançant ainsi le programme de gouvernance pour deux ans.
• Structurer la Communauté : Engie et Nicket s'appuient sur une structure de Data Owners (experts métiers responsables de la définition et de la qualité des données dans leur domaine) et de Data Stewards (profils data qui les assistent techniquement). L'animation de cette communauté (ateliers, "Data Week" chez Engie) est clé pour maintenir l'engagement.
• La gouvernance au service de l'IA : Chez Nickel, la data gouvernance est un prérequis pour l'IA. Les cas d'usage IA (aide à la réponse client, traduction, classification des données, assistant RH) sont encadrés par une gouvernance claire, notamment sur les aspects RGPD et Privacy by Design.
• Le Défi de la priorisation : Un défi commun est d'arbitrer entre les priorités business et les chantiers de gouvernance, qui ne sont pas toujours perçus comme urgents par les métiers. La clé est le dialogue, la recherche de compromis et le découpage des tâches.
• La suppression des données : La CDO de Nickel a défini une méthodologie pour la purge des données RGPD : 1) Identifier le Data Owner, 2) Définir les règles de rétention avec le métier et le juridique, 3) Implémenter techniquement la suppression, 4) Mettre en place une routine automatique pour pérenniser le processus.
6. SNCF : L'Open Data, l'API et le futur avec les serveurs MCP
Intervenants : Bertrand Billoud (Responsable des plateformes open data et contenus SNCF) & Christophe Huchon (Responsable de projet Innovation chez SNCF Voyageurs TGV/IC).
Sujet : Présentation de l'écosystème open data de la SNCF (Open Data, Data Sharing, API) et de son évolution future avec l'expérimentation d'un serveur MCP (Model-as-a-Controller Protocol) pour permettre une interaction en langage naturel avec les données de voyage.
Idées fortes
• Un Écosystème Data à Trois Niveaux :
1. Open Data : 180 jeux de données en libre-service (horaires, gares, TGV Max), massivement utilisés en externe, mais aussi en interne (ex: SNCF Connect pour les notifications TGV Max).
2. Data Sharing : Partage de données sous conditions via des dataspaces (ex: EONA pour la mobilité, logistique et tourisme) avec des partenaires.
3. API SNCF : Une API "premium" pour un accès industriel aux données voyageurs en temps réel, avec un système de token et une documentation riche.
• Le MCP, une nouvelle frontière : Face aux limitations des LLM "seuls", qui ne peuvent pas interagir avec le monde réel, le protocole MCP (initié par Anthropic) vise à standardiser la connexion entre les LLM et les outils/API. Il agit comme un langage commun, évitant de créer un connecteur spécifique pour chaque couple LLM/API.
• Le Projet MCP voyageur : SNCF a développé un serveur MCP pour interroger ses données en langage naturel. L'objectif est de répondre à des requêtes comme "Quels sont les trains pour Marseille le week-end de la Pentecôte ?" ou "Quel est le prochain TGV pour Nantes ?", y compris via des prompts vocaux.
• Une démarche progressive :
Une V0 a été développée en 7 semaines avec des étudiants de CentraleSupélec, connectée à l'Open Data et à l'API SNCF pour des raisons de sécurité.
Une V1 a été consolidée en interne, en améliorant les interfaces et en ajoutant la reconnaissance vocale.
Le lancement public est prévu pour octobre 2025.
• Limitations et prochaines étapes : Actuellement, le MCP est limité aux données TGV et, comme l'Open Data, ne fournit que des fourchettes de prix. Les prochaines étapes viseront à étendre le périmètre à tous les trains (TER, Transilien) et, surtout, à intégrer les API de distribution pour obtenir des prix réels, ce qui soulève d'importants enjeux de sécurité et de modèle économique.
Conclusion du Salon Data & IA de Nantes
Trois piliers fondamentaux ont émergé au fil des conférences :
1. La gouvernance stratégique : Loin d'être une simple case à cocher pour la conformité, la gouvernance des données est présentée comme le socle de toute création de valeur durable. Les témoignages d'Engie et Nickel montrent qu'elle est un outil de performance, un langage commun entre la tech et les métiers, et un prérequis indispensable à des déploiements IA fiables et éthiques.
2. La souveraineté technologique : La dépendance aux géants technologiques américains, longtemps acceptée comme le prix de la vitesse, est aujourd'hui un risque stratégique majeur. La démarche de Covéa illustre une voie pragmatique : non pas le rejet, mais la "désensibilisation", la construction d'alternatives et la reprise en main progressive de la stack technologique pour garantir une autonomie commerciale et géopolitique.
3. L'IA en action : L’IA a définitivement quitté les labs pour devenir un agent actif au sein des organisations. Les retours d'expérience de Carrefour et de la SNCF montrent une évolution claire, passant d'une IA qui informe (RAG) à une IA qui agit (agents, MCP). Ce faisant, la complexité se déplace du modèle lui-même vers son intégration sécurisée et efficace dans des écosystèmes existants.
La journée a aussi mis en lumière une tension productive : la nécessité d'accélérer pour capter la valeur “immense” promise par la Data et l'IA, et l'obligation de ralentir pour le faire de manière structurée, souveraine et responsable.
“L'avenir appartient aux organisations qui sauront naviguer cette complexité, en considérant la data non plus seulement comme un actif technique, mais comme un actif stratégique, humain et sociétal”, résume Mick Levy.