Croissant, le LLM open source, frugal et souverain au service d’applications industrielles
Développé par des chercheurs d’Illuin et de Supélec, Croissant est un LLM de petite taille, optimisé pour le français et entraîné grâce aux ressources du supercalculateur Jean Zay.
(© Cyril FRESILLON / IDRIS / CNRS Photothèque)
Un rapide coup d'œil sur Hugging Face permet de prendre conscience de la multitude de LLM open source disponibles sur le marché. Et Mistral AI n’est pas le seul concepteur de telles solutions ouvertes - tout en développant aussi des déclinaisons propriétaires.
Parmi ces alternatives figure notamment Croissant, issu d’un partenariat industriel et académique entre Centrale Supélec et Illuin Technology. Sa conception a démarré mi-2023, époque à laquelle peu d’offres existaient en IA générative en français, souligne Gautier Viaud, Head of Research & Development de l’éditeur.
100.000 heures d’entrainement pour un LLM d’1,3Md de paramètres
Le CNRS est également associé à la création du LLM. En effet, le modèle a été entraîné sur le supercalculateur public Jean Zay. “L’entraînement d’un tel modèle est extrêmement consommateur de ressources. Sans le supercalculateur, nous n’aurions pas pu y parvenir.”
Une partition de Jean Zay a été privatisée pour ces opérations sur une période de 17 jours. “Cela correspond environ à 100.000 heures d’entraînement”, précise Manuel Faysse, chercheur et principal contributeur technique de Croissant dans le cadre d’une thèse CIFRE.
Coût estimé de cet entraînement : 500.000 euros (en équivalence cloud public type GCP). Et bien qu’un projet de recherche, le LLM Croissant est associé dès son origine à des “ambitions industrielles”. De recherche car la volonté de départ était de le concentrer sur des données francophones.
Les alternatives étaient alors rares, en open source comme en propriétaire. L’ouverture des jeux de données était encore plus rare. Autre spécificité : son orientation sur l’industrie. “Nous comptons de nombreux partenaires industriels souhaitant utiliser ces IA génératives au sein de leur capital”, indique Gautier Viaud lors du DIMS de l’IMA.
EDF, partenaire de recherche d’Illuin, peut être cité comme l’un de ces industriels. L’énergéticien, dans le cadre de sa propre R&D, consacre des efforts conséquents à la conception et à l’expérimentation de technologies d’IAGen frugales et souveraines.
Un modèle véritablement open source
Pour répondre à ces besoins, Croissant se présente donc comme un petit modèle de langage (1,3 milliard de paramètres) avec pour vocation “d’être très bon sur du français, sur des cas d’usage intéressants pour les entreprises et déployable facilement on-premise.”
Autre caractéristique recherchée pour ce LLM : sa nature pleinement et “véritablement open source. Cela se traduit par le partage des poids du modèle, ainsi que du jeu de données exploité pour son entraînement.
Une telle extension du périmètre open source demeure loin d’être un standard, y compris du côté de Mistral AI. “Si vous souhaitez refaire l'entraînement de Croissant de zéro, vous êtes en mesure de le faire. C’est le cas pour très peu de modèles aujourd’hui.”
Techniquement, Croissant reprend une approche “classique”, c’est-à-dire de forme Decoder - des modèles générant des tokens ou des mots progressivement et auto-régressivement, détaille Manuel Faysse.
Sur la base de cette architecture, les concepteurs ont fait un choix “plus osé” en privilégiant un modèle plus petit,mais entraîné sur un plan grand volume de données. Cet axe se traduit par des coûts supérieurs, mais des modèles “plus légers, plus rapides et tout aussi performants que les modèles plus gros.”
Ainsi, Croissant a été exposé à plus de données que des modèles de la famille LlaMa2, par exemple. Cette approche a notamment pour avantage d’offrir plus de faciliter en phase de fine-tuning et d’adaptation aux cas d’usage.
Données culturelles, encyclopédiques, traductions… un modèle bien nourri
Se pose toutefois la problématique des données. Compte tenu de l’ambition open source de départ, l'entraînement de Croissant excluait de multiples datasets. “Nous ne voulions que des données sous licences permissives et qui pouvaient être redistribuées.”
La qualité des données est également critique pour garantir des performances sur différentes applications. Celle-ci devait être la plus élevée possible. Cela s’est traduit par le recours à des données culturelles en quantités importantes.
Des bases de données littéraires sous licence permissive ont ainsi été utilisées. Livres, poésie, paroles de chanson… Croissant a de la culture. “Nous voulions aussi que Croissant soit intéressant industriellement et administrativement”, ajoute Manuel Faysse.
En conséquence, le modèle a aussi été nourri avec des textes de lois, des débats parlementaires et d’autres fichiers PDF publics scrapés sur Internet et sous licence libre. Toujours pour enrichir la base de connaissance du LLM, encyclopédies en ligne, manuels scolaires et publications scientifiques ont été ajoutés.
En outre, si le français était important pour Croissant, l’ambition n’était cependant pas de le cantonner à du mono-langue. L’objectif : un LLM bilingue anglais-français et “à part équivalente” (50/50). De quoi le démarquer des autres solutions, souvent entraînées à 90% avec des corpus anglophones.
Croissant optimisé pour des tâches spécifiques
Afin d’étoffer sa nature bilingue, les chercheurs ont nourri Croissant en données de traduction dès la phase de pré-entraînement. Bien sûr ont été ajoutées “beaucoup de données Internet. Il est cependant important de les filtrer de manière très agressive pour bénéficier de la meilleure qualité possible.”
Le pré-traitement de ces données a donc constitué un volet majeur du projet, notamment afin de les dédupliquer. Des algorithmes ont été mis à contribution pour cette finalité de tri des données récupérées auprès des sources multiples. Le résultat, c’est un dataset d'entraînement de 3000 milliards de tokens.
S’est posée ensuite la question de l’évaluation des performances. Les outils manquaient pour les IA génératives en français, indique le chercheur. A donc été conçu Frenchbench, un nouveau benchmark français”.
Son but : réaliser différentes tâches pour tester le modèle via de la génération de synthèses, l’évaluation de ses connaissances culturelles ou par le biais de questions ouvertes ou à choix multiples. Pour Manuel Faysse, la promesse de départ est tenue avec un modèle “très compétitif en français et en anglais”.
En comparaison d’un Mistral 7B, Croissant reste inférieur, mais néanmoins utile. “Il faut choisir ses cas d’usage, c’est-à-dire des tâches adaptées”. Le doctorant d’Illuin indique ainsi que Croissant peut être fine-tuné pour constituer un assistant très performant sur les tâches de reformulation et de connaissance.
“C’est également un très bon modèle de traduction” du fait de la composition de son dataset d’entraînement. “En traduction, Croissant est meilleurs que des modèles plus gros comme les Llama 13B ou Mistral 7B”, se félicite-t-il.
Un LLM frugal exécuté sur CPU pour l’aide à l’écriture, les résumés et la traduction
Promesse tenue aussi sur la nature open source. Tous les composants sont ouverts, y compris l’ordre exact dans lequel les données ont été vues par le modèle. Place à présent aux applications industrielles de Croissant.
Elles sont diverses, souligne Gautier Viaud. La performance réside toutefois dans la réalisation de “tâches spécifiques” nécessitant “moins de raisonnement” : aide à l’écriture, génération de résumés, traduction, compression de prompts… Pour ces tâches, le modèle peut être utilisé tel quel ou fine-tuné (spécialisé avec des données) pour un gain de performance.
Avec son milliard de paramètres, Croissant a pour avantages sa rapidité et sa frugalité, mais aussi sa capacité à fonctionner en inférence sans GPU. Il participe ainsi potentiellement à une démocratisation des cas d’usage de l’IA générative.
Du CPU suffit pour faire tourner le LLM, rendant par exemple possible une utilisation sur smartphone, ont constaté Illuin et Supélec. Sur processeur classique, le modèle peut générer 30 tokens par seconde - plus que la vitesse de lecture d'un humain.
Le recours à des GPU reste néanmoins possible. Sur un T4, un processeur graphique “relativement bas de gamme”, la vitesse peut être portée jusqu’à 120 tokens par seconde. “Si vous avez besoin de traiter de grands volumes de données, Croissant est un modèle qui peut s’avérer intéressant”, conclut le directeur de recherche d’Illuin.
Les analyses et actualités Data & IA
GenAI : stratégies pour tirer l’adoption auprès de vos collaborateurs - L’IA générative reste complexe à appréhender pour une majorité de salariés, voire sujette à des résistances. Voici 10 conseils utiles, issus de témoignages d’entreprises, pour en favoriser l’usage et la démocratisation au sein de votre organisation (comme s’appuyer sur des ambassadeurs, cibler des usages concrets ou développer une approche itérative).
Voici comment Air France commence à utiliser l’IA générative - Dans une approche collaborateur augmenté, ou Iron Man plutôt que Transformer, Air France a commencé en 2023 ses expérimentations en IA générative. Plus de 80 projets sont en cours, parmi lesquels PamelIA et Charlie pour le personnel au sol et les techniciens de maintenance.
Avec Codestral, Mistral AI s’invite dans la génération de code - Après les LLM pour la génération de texte, la licorne française Mistral AI fait ses débuts dans le domaine de la génération de code avec son modèle d’IA générative dédié : Codestral. L’éditeur revendique la maîtrise de plus de 80 langages de programmation.
Comment La Poste met la Data Science en self-service pour accélérer les usages - La fourniture d’outils et l’accompagnement par le Data Office s’inscrivent dans la stratégie Data Driven du groupe La Poste.
La DSI de l’Urssaf sur tous les fronts : conteneurs, IA, cloud, dette technique - Après la conception d’une plateforme cloud expérimentale, l’Urssaf a entamé la création d’une seconde, axée industrialisation, grâce à des conteneurs et OpenShift. La DSI continue aussi à mener des chantiers pour basculer en organisation agile et réduire sa dette technique. Avec comme nerf de la guerre : les compétences.
Guides à télécharger (Liens sponsorisés)
Les Guides Data Platforms de Orkestra-data : deux ouvrages complémentaires consacré à la Dynamique des Data Platforms et au Panorama des Data Platforms.
▶ dans la Dynamique des Data Platforms, on explique ce qui justifie cette convergence, par des principes forts comme la donnée qui devient un produit, ou les nouvelles organisations de type Data Mesh et on détaille les différentes fonctions d’une Data Platform.
▶ dans le Panorama des Data Platforms on passe en revue une trentaine de solutions proposées par des éditeurs, on les décrypte et on présente les tendances du marché à suivre.
Pourquoi et comment me contacter ?
Vous êtes CDO, experts de la Data et de l’IA dans une organisation utilisatrice et vous souhaitez partager un retour d’expérience ou mettre en lumière une thématique ? Alors contactez-moi sur LinkedIn.
Vous êtes fournisseur, société de conseil ou éditeur et vous souhaitez proposer du contenu qualitatif à une audience ciblée en figurant dans la newsletter Secrets de Data ? Discutons-en ! [Offre payante]