Bienvenue sur IA-Pulse Weekend. Cette édition porte le numéro 103. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : un coup de gueule édito, une sélection de 3 actualités avec pour chacune un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir et 1 podcast à écouter. Gérez votre abonnement.
⏱️Temps de lecture de cette newsletter par une unité carbone : 10 mins
Voilà maintenant plus de deux ans que j’explique à toutes celles et tous ceux que je forme ou que je rencontre lors de mes interventions en entreprises, que non il n’y a pas de bon outil génératif pour faire une bonne infographie, et que non il n’existe pas vraiment de générateur d’images capable d’utiliser un mode conversationnel permettant ainsi d’interagir pour modifier, affiner l’image générée par itération - comme on le fait pour les textes depuis la mise sur le marché des chatbots dopés aux LLM.
Pendant ces formations ou conférences, j’ajoute très souvent que ce type d’outil va arriver. Un jour. D’ailleurs, on en avait déjà eu un avant-goût il y a quelques dizaines de jours - vous y croyez vous, “quelques dizaines de jours” ça sonne comme “préhistoire” - avec la mise à dispo de Gemini 2.0 Flash (Image Generation) Experimental par Google. Mais là depuis mardi soir… Avec la mise en ligne du nouveau mode image de GPT-4o… Je n’avais pas été scotché comme ça par une nouvelle feature ou un nouveau produit depuis un bon moment.
Ce n’est pas tant la qualité des images produites qui m’a donné une claque. C’est le niveau d’abstraction et d’interprétation permis par l’emploi d’un LLM de ce niveau comme interface en langage naturel et comme guide pour générer des images qui a fait mouche dans mon cerveau d’unité carbone. Le modèle est le produit, le modèle est l’interface.
On peut non seulement générer des images que d’autres modèles ne savent pas faire - l’ami Gilles Guerraz cite l’exemple de la voiture sans roue dans son édition d’hier (si vous n’êtes pas abonné faites-le) ou encore Etienne Mineur qui ironise sur la possibilité de pouvoir enfin générer un verre de vin rempli à ras bord - mais on peut surtout enfin MODIFIER à sa guise UNE IMAGE GÉNÉRÉE en gardant sa structure sans la détruire. Plus encore, on peut FAIRE DES INFOGRAPHIES cohérentes : avec du texte, des illustrations, des codes couleurs, etc. Il suffit d’exprimer notre intentionnalité avec des mots. Cela rappelle certainement quelque chose aux personnes qui m’ont suivi lors de mes interventions : le gros du boulot, de notre boulot, est toujours au même endroit avec ces outils, avec les modèles de langage et les chatbots dopés aux LLM : réussir à exprimer notre intentionnalité. Et exprimer correctement cette intentionnalité, ce n’est pas aussi simple que certains veulent nous le faire croire.
Enfin pour clore cet édito, n’oublions pas comment sont entrainés ces modèles, sans aucun respect de la propriété intellectuelle et du droit moral - je m’attends à un courrier d’avocat - , ni comment ils sont capables de “copier” - je m’attends vraiment à un courrier d’avocat - des auteurs ou artistes pour nous faire croire qu’en les utilisant nous développons ainsi l’artiste caché - bien caché, bien profond - qui est en nous. Non ce n’est pas parce que tu génères une image à la sauce “Ghibli” que tu es un prince de l’animation nippone. Désolé. Deal with it. Et non, tu n’as pas plus de créativité que tout être humain moyen.
“Rather than serving as a tool for artists, Gen Al turns artists into tools, converting human creators into data bodies while feeding off their work, preferences, and cognitive labor in order to refine its outputs.” Caroline Zeller.
Et pendant ce temps-là, Elon fait racheter X par xAI. Pour le coup, à ce niveau, c'est de l’art.
Le modèle est le produit, le modèle est l’interface.
-Cet édito est beaucoup trop long. Pardon-
Cette semaine la partie de cette newsletter gérée par l’IA, les 3 clusters d’articles, a été générée par Gemini 2.5 Pro Experimental 03-25 (température 1.2) pour les résumés des articles sources, ainsi que la génération des clusters et des titres. Comme d’habitude j’ai fait quelques modifications, mais j’ai aussi laissé quelques tournures typiques des modèles de langage. Et bien entendu, mes commentaires éventuels sont en italique dans ces résumés. Le texte de “l’article qui fait réfléchir” est issu de GPT-4o finetuné .
L’image d’illustration ci-dessous est générée par ChatGPT 4o image.
📰 Les 3 infos de la semaine
⭐ Google lance Gemini 2.5 Pro, son IA "pensante" la plus avancée
Google a dévoilé cette semaine Gemini 2.5, une nouvelle famille de modèles d'intelligence artificielle intégrant une capacité dite de "raisonnement". Le premier modèle issu de cette famille, Gemini 2.5 Pro Expérimental, est présenté par l'entreprise comme son modèle le plus intelligent à ce jour. Sa particularité réside dans sa capacité à marquer une pause pour "réfléchir" avant de fournir une réponse, en traitant les problèmes par étapes pour améliorer la précision, notamment sur des tâches complexes. Ce modèle est nativement multimodal, capable de traiter du texte, de l'audio, des images, de la vidéo et du code. Il est disponible dès maintenant sur la plateforme pour développeurs Google AI Studio et via l'application Gemini pour les abonnés au service payant Gemini Advanced.
Gemini 2.5 Pro est lancé avec une fenêtre de contexte d'un million de tokens, équivalant à environ 750 000 mots, et Google prévoit de la doubler prochainement à deux millions de tokens. L'entreprise affirme que ce modèle surpasse ses versions antérieures et certains concurrents sur plusieurs benchmarks reconnus, en particulier pour la création d'applications et des tâches de code. Sur certains tests spécifiques de codage ou de raisonnement multimodal (comme Humanity's Last Exam), il obtiendrait de meilleurs scores que des modèles d'OpenAI ou DeepSeek, bien que d'autres modèles comme Claude 3.7 Sonnet d'Anthropic le devancent sur d'autres évaluations. Les premiers retours utilisateurs mentionnent sa rapidité et son efficacité. La tarification pour l'utilisation via API n'a pas encore été communiquée.
Pourquoi est-ce important ? Multimodal, contexte géant et raisonnement. L’horizon des événements.
Sources : TechCrunch, The Verge, VentureBeat
🌑 Anthropic gagne une manche dans le litige sur les paroles de chansons
Anthropic a obtenu une décision favorable dans une phase préliminaire du litige qui l'oppose à plusieurs grands éditeurs musicaux, dont Universal Music Group, Concord et ABKCO. Ces derniers accusent l'entreprise d'intelligence artificielle d'avoir enfreint leurs droits d'auteur en utilisant sans autorisation les paroles d'au moins 500 chansons d'artistes variés (comme Beyoncé, les Rolling Stones ou les Beach Boys) pour entraîner son agent conversationnel, Claude. Les éditeurs affirmaient que Claude était capable de reproduire ces paroles de manière quasi identique et demandaient une injonction préliminaire pour interdire à Anthropic d'utiliser leurs œuvres pour l'entraînement de ses futurs modèles.
Une juge fédérale de Californie a cependant rejeté cette demande d'injonction. Selon la décision, les éditeurs n'ont pas réussi à prouver l'existence d'un "préjudice irréparable" immédiat causé par les actions d'Anthropic, notamment sur le marché existant des licences de paroles. La juge a également souligné que la demande des éditeurs était trop large et potentiellement difficile à appliquer concrètement, et que la question de fond de l'usage équitable ("fair use") restait à trancher. Anthropic s'est félicité de cette décision et maintient que l'utilisation de matériel protégé pour l'entraînement est conforme aux principes du "fair use". Les éditeurs, quant à eux, se disent toujours confiants pour la suite du procès sur le fond, soulignant qu'Anthropic avait déjà accepté de mettre en place des garde-fous pour empêcher Claude de générer des paroles protégées.
Pourquoi est-ce important ? Cette décision, bien que préliminaire et ne tranchant pas le fond de l'affaire, influence le débat juridique sur la légalité de l'utilisation de contenus protégés par le droit d'auteur pour entraîner les modèles d'IA, une question centrale pour l'avenir du développement de l'IA et la protection des droits des créateurs déjà tranchée par les géants de l’IA qui veulent tout prendre sans respecter le droit moral de chaque créateur, et encore moins rétribuer.
Sources : Reuters, The Wall Street Journal, The Hollywood Reporter
🔭 Les IA actuelles échouent face à de nouvelles énigmes et au critère d'efficacité - Nous sommes sauvés !
Les modèles d'intelligence artificielle les plus sophistiqués d'aujourd'hui montrent leurs limites face à un nouveau test conçu pour mesurer les progrès vers l'intelligence artificielle générale (AGI). Baptisé ARC-AGI-2 et proposé par la fondation ARC Prize, ce benchmark se veut plus exigeant que son prédécesseur, ARC-AGI-1, sur lequel certains modèles comme o3 d'OpenAI avaient obtenu de bons résultats. Le nouveau test se concentre sur des énigmes nécessitant de l'adaptabilité et une forme de raisonnement symbolique, des tâches que les humains trouvent relativement simples mais qui s'avèrent très difficiles pour les IA actuelles. Celles-ci obtiennent des scores très bas, souvent à un seul chiffre sur 100, alors que chaque question du test a été résolue par au moins deux humains.
Une innovation majeure d'ARC-AGI-2 est l'introduction de l'efficacité comme critère d'évaluation. Le test prend en compte le coût de calcul nécessaire pour accomplir une tâche, comparant par exemple le coût estimé pour une IA (potentiellement des centaines de dollars par tâche pour un modèle comme o3) à celui d'un testeur humain (environ 17 dollars). Pour réussir ce benchmark, un modèle d'IA devra donc non seulement être très compétent mais aussi efficace et moins gourmand en ressources. Certains observateurs estiment que cette approche est plus réaliste et pourrait orienter la recherche vers des modèles plus légers. D'autres restent sceptiques, arguant que ces tests mesurent avant tout la performance sur des tâches spécifiques et ne reflètent pas une véritable intelligence générale.
Pourquoi est-ce important ? Ah, donc l’AGI ce n’est pas pour aujourd’hui alors ? Ni pour demain ? Une fois de plus, mettons-nous déjà d’accord sur ce que représente l’AGI, ensuite essayons de mesurer.
Sources : NewScientist
🚀 3 infos en plus
Inside arXiv—the Most Transformative Platform in All of Science (Wired)
Tracing the thoughts of a large language model (Anthropic)
‘Open source’ AI isn’t truly open — here’s how researchers can reclaim the term (Nature)
🛠️ Des outils et des modèles à tester
Whisper Notes : Speech to text offline (Mac/iOS)
Gemini Co-Drawing : dessiner en collab homme/machine
🧠 L’article qui fait réfléchir - et qu’il faut absolument lire
OpenAI has released its first research into how using ChatGPT affects people’s emotional well-being
”Le doute, terrible trou noir de l'esprit, là où l'univers perd confiance en lui-même.”
Les chatbots ont cessé d’être des objets techniques neutres. Sans vraiment nous en rendre compte, on leur a donné une place étrange, presque intime, à la frontière entre outil pratique et confident virtuel. Derrière cette zone grise, il y a tout un continent d’émotions floues, à peine avouées, qu’on commence tout juste à explorer. La question centrale dépasse le simple effet de ces conversations : elle interroge notre besoin ambigu de parler à des machines, et ce que cela révèle de nous-mêmes.
Ce n’est jamais juste une interaction anodine. Au fil des échanges, quelque chose s’installe. On s’attache ou on se méfie, on projette sur la machine nos propres désirs ou nos propres peurs. Et peu à peu, c’est nous-mêmes que nous retrouvons transformés, parfois subtilement isolés des autres, parfois juste un peu plus troublés face à ce miroir étrange qui nous imite et nous répond, sans être réellement présent.
Le fait même que certains d’entre nous se laissent aller à tisser des liens affectifs avec un programme informatique nous rappelle que ce n’est pas la machine qui est en jeu, mais la fragilité de notre propre rapport à l’autre. L’illusion du dialogue cache mal notre solitude, et ces interactions artificielles finissent par accentuer, plus qu’elles ne réduisent, nos différences et nos attentes inconscientes.
Ce qui est en cause, finalement, ce n’est pas la technologie elle-même, mais la redéfinition subtile de ce qu’est une relation humaine authentique. Lorsqu’on dialogue avec l’intelligence artificielle, ce n’est jamais vraiment elle que l’on interroge. C’est nous-mêmes : nos désirs, nos vulnérabilités, et cette envie parfois inavouable d’être compris, même par une présence virtuelle.
📻 Le podcast de la semaine
Le temps et les algorithmes : comment ça se passe ?
Le numérique prétend maîtriser le temps par des solutions apparemment parfaites, créant pourtant des défis stratégiques profonds mais sous-estimés. (Merci JS😬)
N’hésitez à me contacter si vous avez des remarques et suggestions sur cette newsletter, ou si dans votre entreprise vous cherchez à être accompagnés dans l’intégration d’outils IA et d’IA générative : olivier@255hex.ai
Partagez cette newsletter
Et si vous n’êtes pas abonné, il ne tient qu’à vous de le faire !
“A black hole has no hair” R.F.
Bon weekend.