Temps d’écoute : 56 mins - Temps de lecture : 6 mins
Vous pouvez modifier vos préférences de réception ou vous désabonner sur la page de votre compte
Il y a quelques jours, j’ai eu l’occasion d’échanger avec Pierre-Carl Langlais, cofondateur de Pleias et fin connaisseur des grands modèles de langage (LLM). Une discussion qui ne s’est pas limitée aux aspects techniques mais qui a rapidement débordé sur des questions fondamentales : open source, données d’entraînement, souveraineté numérique et place des médias dans cet écosystème en mutation. Nous avons même parlé de DeepSeek… comme de par hasard.
Un LLM open source… mais encore ?
La question paraît évidente. Elle ne l’est pas. « C'est quoi un LLM open source ? Alors c'est une excellente question qui n'est pas du tout idiote au contraire parce qu’elle n'est pas résolue. »
Un LLM, rappelle Pierre-Carl, n’est pas seulement un programme mais un modèle : « un LLM c'est pas juste un programme c'est un modèle donc c'est un set de paramètres qui est entraîné en fait sur des données. »
Or, entre les modèles "open weight" (où seuls les poids sont accessibles) et ceux affichant une transparence totale, il y a tout un spectre. Et l’appellation "open source" cache parfois des subtilités bien moins ouvertes qu’on ne le croit : « les licences elles ne sont pas si ouvertes que ça. Si on regarde par exemple META, il y a quand même beaucoup de restrictions. »
Alors, où commence réellement l’ouverture ? Une question qui reste en suspens, et qui structure une grande partie du débat actuel.
Les données d’entraînement : l’angle mort du débat
Les LLM sont gourmands en données. Et là, on touche au nerf de la guerre.
Problème : ces modèles sont souvent entraînés sur des données protégées par le droit d’auteur, quand elles ne sont pas tout simplement issues de pratiques plus que douteuses. « Ils s'entraînent sur de la donnée piratée encore aujourd'hui. C'est ce qu’on a appris avec le procès META. »
Les entreprises évitent soigneusement d’indiquer sur quelles données leurs modèles ont été entraînés. Un flou parfaitement assumé.
Les sources ouvertes comme Common Crawl permettent d’accéder à de grandes quantités de texte, mais la qualité est inégale. Or, une évidence s’impose : « Bizarrement plus on lui envoie des textes intelligents plus le modèle est intelligent. »
Mais où trouver ces textes intelligents ? Dans des corpus fermés. D’où la quête actuelle des grands acteurs pour obtenir des données de meilleure qualité, notamment celles qui contiennent une trace du raisonnement sous-jacent.
De son côté, Pleias a choisi de n’utiliser que des données sous licence libre ou en domaine public. Un choix stratégique et unique.
Les modèles de raisonnement : l’enjeu caché
Les reasoning models représentent une rupture conceptuelle. Contrairement aux LLM classiques, qui produisent des réponses immédiates, ces modèles construisent un raisonnement avant de répondre.
Leur méthode ? Les "reasoning traces" : des traces de raisonnement qui permettent de voir le cheminement de la pensée, à la manière d’une dissertation rédigée étape par étape.
Mais il y a un hic : ces brouillons de raisonnement sont rarement disponibles dans les datasets classiques. « Les données de brouillon, les données du cheminement, c’est ce qu’il manque. »
Or, si les modèles classiques ont montré une dépendance aux textes intelligents, c’est encore plus vrai pour les modèles de raisonnement.
L’enjeu devient alors clair : qui parviendra à collecter ces corpus de données structurées, précieuses, et souvent verrouillées ?
DeepSeek : la montée en puissance chinoise
Longtemps dominé par les acteurs américains, le marché des LLM voit émerger un concurrent de poids : DeepSeek.
Avec des modèles compétitifs, des coûts réduits et une expertise en optimisation, DeepSeek se démarque. Et il y a une raison simple à cela : « la grande force aussi c'est qu'ils ont fait leurs mains sur un marché avec un milliard de consommateurs. »
Là encore, les données sont centrales. DeepSeek excelle dans l’art du parsing de documents complexes, une compétence clé dans la construction des modèles de raisonnement. Un atout stratégique qui pourrait bien faire la différence.
Pour celles et ceux intéressés par le nouvel algo de Reinforcement Learning utilisé par DeepSeek, Pierre-Carl a publié le premier script fonctionnel sur Google Colab de GRPO.
GRPO - Group Relative Policy Optimization : le GRPO est un moyen d'entraîner un modèle de langage à s'améliorer en comparant ses propres réponses et en apprenant à faire mieux en utilisant un groupe de réponses et une mesure de la qualité basée sur les scores au sein du groupe. Au lieu d'utiliser un autre modèle pour évaluer ses réponses, il optimise directement la qualité des résultats en fonction de scores relatif.
Et si vous voulez accéder à un NotebookLM qui regroupe les principales publications de l’équipe DeepSeek sur leurs différents modèles depuis janvier 2024, envoyez-moi votre adresse gmail et je vous donne un accès : olivier@255hex.ai
Souveraineté numérique : l’Europe à la croisée des chemins
L’auto-hébergement des LLM est un premier pas vers une indépendance technologique : « Open weight c'est vraiment déjà très important en fait je dirais sur la question de l'auto-hébergement. »
Pourquoi ? Parce que cela permet de garder le contrôle sur les données et d’éviter qu’elles ne soient captées par des acteurs extérieurs.
Mais l’enjeu ne se limite pas à ça. Il s’agit aussi d’avoir le droit de modifier ces modèles, de les adapter à des besoins spécifiques : « on a droit de modifier le LLM pour en faire autre chose et ça c'est vraiment très précieux notamment si on veut travailler sur des plus petits LLM. »
L’Europe a donc une opportunité à saisir : investir dans des modèles spécialisés, conçus pour des applications précises, et surtout pensés dès le départ pour un usage souverain.
« On a quand même cette possibilité aujourd'hui pour plein d'acteurs dans plein de domaines en réalité de penser tout de suite leur déploiement à un niveau européen. » Encore faut-il avoir la volonté de le faire.
Les médias : à la veille d’un choix stratégique
Les médias ont un précédent douloureux : les réseaux sociaux. Ils ont fourni leurs contenus, laissé les plateformes capter leur audience, et se sont retrouvés… les dindons de la farce.
L’histoire pourrait bien se répéter avec l’IA.
Pierre-Carl met en garde : les médias doivent éviter de céder leurs données sans maîtrise. Plutôt que de se contenter d’accords précipités, il s’agit de reprendre la main.
L’enjeu ? Classer, structurer et valoriser leurs données, afin de conserver un contrôle stratégique sur leur exploitation future.
« Je pense que pour les médias ce serait beaucoup plus intéressant d'aller là-dessus sur une valorisation de la donnée, concrètement sa classification, son enrichissement, son anticipation, » plutôt que de se retrouver une fois de plus en position de faiblesse face aux plateformes.
Une bascule en cours
Ce qui se joue aujourd’hui autour des LLM, ce n’est pas juste une question de performances ou d’optimisation technique. C’est un rapport de force.
L’accès aux données façonne l’avenir des modèles de langage. Leur gouvernance détermine qui en tire profit.
Share this post