Bienvenue sur IA-Pulse Weekend. Cette édition porte le numéro 99. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : un coup de gueule édito, une sélection de 3 actualités avec pour chacune un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir et 1 podcast à écouter. Gérez votre abonnement.
⏱️Temps de lecture de cette newsletter par une unité carbone : 10 mins
GPT-4.5 est sorti en cette fin de semaine. Certainement le dernier de la lignée des mastodontes des modèles de langage qui ne “raisonnent” pas. Depuis deux ans et trois mois, la capacité de ChatGPT et de ses petits camarades à produire des textes grammaticalement justes et à compléter de manière bluffante nos propres phrases humaines, nous a donné l’illusion d’avoir en face de nous des entités paraissant plus “intelligentes” qu’elles n’étaient en réalité. Nous avons appris - enfin une partie d’entre nous - à vivre avec et, surtout, à travailler avec cette contrainte : ces entités numériques se trompent, et en même temps elles peuvent nous être utiles. À nous de les prendre pour ce qu’elles sont et de les laisser pour ce qu’elles ne sont pas.
Probablement pour bien marquer la fin probable de cette ère des mastodontes, cette semaine d’autres modèles sont aussi arrivés sur le marché : Claude 3.7 de Anthropic, le “premier modèle hybride” qui mêle le mode classique et le mode raisonnement de manière presque transparente pour l’utilisateur; Mercury d’Inception, premier modèle de diffusion appliqué à la génération textuelle; Phi-4 de Microsoft, un petit modèle de langage (SLM) dédié aux raisonnements, capable d’inférer en local.
Depuis quelques mois, les nouveaux modèles dits “de raisonnement” et les fonctionnalités comme la “recherche profonde” continuent de brouiller encore un peu plus nos regards et nos attentes face à ces outils “intelligents”. Alors, croire qu’un coup de “Deep Research” permet actuellement de produire un document du même acabit qu’un doctorant pourrait le faire, en particulier avec le même niveau de confiance dans les idées et les faits retranscrits, est aussi périlleux que de poser une question factuelle sur un fait réel se déroulant dans le présent de l’époque, à un ChatGPT lors de sa sortie en décembre 2022. Camarades, “la confiance n’exclut pas le contrôle”. D’ailleurs, même le rendu du doctorant est relu et validé. Pourquoi voulez-vous qu’il en soit autrement pour ces outils ?
Ah et sinon, Sora, le modèle text-to-video d’OpenAI est disponible en Europe. Tu vois, un jour ou l’autre, ce qui doit arriver arrive. Le plus probable, c’est que le plus probable arrive. Toujours. Ici comme ailleurs.
Ne pas se tromper sur la nature et les finalités des objets et des êtres, c’est peut-être tout ce qui nous restera en fin de compte. Un jour.
Cette semaine la partie de cette newsletter gérée par l’IA, les 3 clusters d’articles, a été générée par GPT-4.5-preview-2025-02-27 (très lent et qui coute trop cher!) pour les résumés des articles sources, ainsi que la génération des clusters et des titres. Comme d’habitude j’ai fait quelques modifications, mais j’ai aussi laissé quelques tournures typiques des modèles de langage. Et bien entendu, mes commentaires éventuels sont en italique dans ces résumés. Le texte de “l’article qui fait réfléchir” est issu d’un ping-pong entre Claude-3.7-Sonnet-Extended Thinking et GPT-4o finetuné.
L’image d’illustration ci-dessous est générée par Midjourney.
📰 Les 3 infos de la semaine
🙊 Modèles de diffusion : Mercury d’Inception inaugure une nouvelle ère pour l’IA textuelle
Inception vient de présenter Mercury, un modèle de langage qui pourrait transformer profondément la manière dont les intelligences artificielles génèrent du texte. À la différence des modèles traditionnels comme GPT, qui construisent leurs réponses mot après mot, Mercury utilise une technologie issue des modèles de diffusion, habituellement réservée à la génération d’images, d’audio et de vidéos.
Cette méthode repose sur une approche parallèle : au lieu de générer séquentiellement chaque élément d'un texte, Mercury crée simultanément l’ensemble de sa réponse à partir d’un état initialement brouillé, clarifiant progressivement son contenu jusqu’à obtenir un résultat cohérent. Ce procédé s'apparente à celui des modèles d’image comme Midjourney ou DALL-E, mais il est adapté ici au traitement du langage écrit.
L’avantage principal de Mercury réside dans sa rapidité. Le modèle est capable de produire jusqu’à 1 000 tokens par seconde, une performance inédite, représentant environ dix fois la vitesse des modèles comme GPT-4o-mini. Cette augmentation de vitesse s’accompagne d’une réduction considérable des coûts de calcul, permettant un usage plus efficace des ressources matérielles, notamment des puces graphiques utilisées pour les calculs d'IA.
Côté benchmarks, sur les tests de code standardisés, Mercury Coder Mini atteint des performances équivalentes aux meilleurs modèles actuels, avec 88 % sur HumanEval.
Pourquoi est-ce important ? L’arrivée des modèles de diffusion appliqués au texte ouvre la voie à des outils d’IA plus rapides, plus économes en ressources et potentiellement plus polyvalents. On verra…
Sources : TechCrunch, Ars Technica, Artificial Intelligence Made Simple
🙈 L’intelligence artificielle générative transforme Alexa en Alexa+
Amazon lance Alexa+, une version profondément remaniée de son célèbre assistant vocal, désormais alimentée par l’intelligence artificielle générative. Cette nouvelle version, disponible dès le mois prochain, constitue la plus importante évolution d’Alexa depuis son lancement en 2014. Pour Amazon, l'objectif est clair : permettre à Alexa+ d'effectuer des tâches complexes comme la gestion avancée de calendriers, la réservation spontanée de restaurants ou encore l’achat rapide de billets de concert - super...
Alexa+ est présentée comme une rupture technologique car cette nouvelle version se base sur l’association de plusieurs modèles d'IA, notamment ceux développés par Amazon (modèles Nova) et ceux développés par Anthropic. L’innovation centrale réside dans une technologie d’orchestration intelligente : pour chaque requête utilisateur, Alexa+ sélectionne automatiquement le modèle le plus adapté parmi les nombreux disponibles. Cette combinaison dynamique permet de gérer des demandes complexes, telles que choisir un restaurant en fonction des préférences culinaires de collègues ou anticiper les événements susceptibles d'intéresser un utilisateur en particulier.
Pour Amazon, cette mise à jour représente une opportunité stratégique essentielle : reconquérir un marché des assistants intelligents où des acteurs comme OpenAI avec ChatGPT ont pris une avance grâce à leur capacité à soutenir des interactions humain-machine approfondies et plus naturelles. Alexa+, enrichie de ces nouvelles capacités génératives, ambitionne ainsi de redevenir une référence.
Pourquoi est-ce important ? L’orchestration des modèles, c’est la vie. Amazon l’a compris, comme Apple.
Sources : NYT, VentureBeat
🙉 ElevenLabs dévoile Scribe, nouveau champion de la transcription vocale multilingue
ElevenLabs lance Scribe, son nouveau modèle de transcription audio en texte. Scribe se distingue immédiatement par ses performances élevées, enregistrant notamment un taux d’exactitude impressionnant de 96,7 % pour l’anglais. Le modèle prend en charge 99 langues, dont 25 avec une précision exceptionnelle affichant un taux d'erreur inférieur à 5 %, couvrant notamment l'allemand, l’espagnol, le japonais ou encore le français. Scribe est un concurrent très sérieux des modèles Whisper d’OpenAI et Gemini de Google, qu’il dépasse dans plusieurs benchmarks.
Outre sa précision multilingue, Scribe introduit des fonctionnalités avancées comme la « diarisation », qui lui permet d’identifier précisément jusqu’à 32 interlocuteurs différents dans un même enregistrement. Le modèle génère également des transcriptions détaillées avec un horodatage précis au niveau de chaque mot, facilitant la création de sous-titres fidèles et précis. Scribe détecte aussi des éléments non verbaux tels que les rires ou les bruits d’ambiance, enrichissant considérablement la qualité et le réalisme des transcriptions.
Pour le moment, Scribe se concentre sur les fichiers audio préenregistrés, mais ElevenLabs annonce déjà le développement imminent d'une version à faible latence destinée à des usages en temps réel comme les réunions ou les outils de prise de notes vocale. Avec un coût attractif de 0,40 dollar par heure d’audio transcrit, ElevenLabs se positionne de manière très compétitive sur un marché en pleine croissance.
Pourquoi est-ce important ? Le lancement de Scribe par ElevenLabs apporte une réponse performante à la demande croissante d’outils de transcription audio précis, multilingues et facilement intégrables, essentiels pour les entreprises.
Sources : TechCrunch, VentureBeat
🚀 3 infos en plus
Why xAI and Anthropic’s New Products Matter (The Information)
OpenAI’s GPT-4.5 is better at convincing other AIs to give it money (TechCrunch)
Google makes Gemini Code Assist free with 180,000 code completions per month as AI-powered dev race heats up (VentureBeat)
🧠 L’article qui fait réfléchir - et qu’il faut absolument lire
The Deep Research problem
”It’s less about productivity and more about control”
Depuis son avènement - il y a bien longtemps, 2 ans, l'ère de l'intelligence artificielle générative à destination du grand public - vous et moi, nous promet une révolution radicale du travail d’analyse et de recherche. Des outils censés nous libérer enfin du fardeau répétitif de la collecte des données, accélérant la rédaction de rapports, éveillent chez nous, les humains, une forme d'euphorie technologique : la fin du labeur, la perfection à portée de main. Et pourtant, face à ces rêves à peine esquissés, la réalité dévoile déjà ses nuances cruelles.
Car l’IA appliquée à la recherche porte en elle un paradoxe fondamental : elle comprend intuitivement nos intentions, précisément là où les ordinateurs traditionnels échouaient et échouent encore, mais peine encore à restituer fidèlement les faits, domaine où les vieux systèmes excellent eux, encore et toujours. De ce mariage bancal découle un objet étrange, hybride, presque fascinant dans sa contradiction : ni totalement fiable, ni totalement inutile. “And we are calling it Deep Research” ou sa variante “DeepSearch”, on n’est pas très sûr encore du nom.
Et c’est précisément cette fiabilité partielle qui trouble. Un rapport généré par une IA comme OpenAI Deep Research, Gemini Deep Research, Perplexity Deep Research ou encore Grok 3 Deepsearch, peut être exact à 85%, peut-être même à 90%. Mais que vaut ce quasi-succès quand une seule erreur peut faire basculer l’ensemble ? Lorsque la vérité se mesure encore en tout ou rien, en vrai ou faux, en 0 ou 1, un taux d’erreur même minime suffit à disqualifier l’outil comme source autonome. Et là, c’est la sortie de route.
Ces modèles ressemblent ainsi davantage à des « stagiaires virtuels illimités » - sympa pour les stagiaires, qu'à ces experts autonomes dont nous avions secrètement rêvé. Ils réduisent certes une tâche de plusieurs jours à quelques heures à peine, mais réclament encore et toujours la présence vigilante d’un humain pour valider, corriger, nuancer. Ce sont des amplificateurs du travail humain, non ses successeurs - là je vois que vous vous dites que c’est une bonne nouvelle.
Se pose alors une question essentielle, presque existentielle : ces imperfections sont-elles provisoires, simples scories d’un progrès encore balbutiant, ou bien au contraire intrinsèques au fonctionnement même de ces systèmes ? L’amélioration technique atteindra-t-elle cette fameuse perfection totale ou plafonnera-t-elle éternellement à un niveau presque parfait, mais tragiquement insuffisant pour certains usages critiques ?
Cette incertitude trouble profondément la manière dont nous concevons les produits et les services. Faut-il dès lors intégrer dans leur architecture cette marge d’erreur, devenue inévitable contrainte permanente, ou parier malgré tout sur un avenir où la précision sera absolue ?
Cette dernière question nous entraîne vers un vertige dont il est difficile de sortir indemne - non mais ça va aller, tout va bien se passer, je vous promet. Parce que, derrière l'apparente neutralité de cette incertitude technique, se cache en réalité un dilemme profondément humain : jusqu'où sommes-nous prêts à accepter l'imperfection ? - Jusqu’où sommes nous prêts à nous accepter ? L’état du monde actuel nous donne peut-être un indice.
📻 Le podcast de la semaine
Satya Nadella – Microsoft’s AGI Plan & Quantum Breakthrough
Le patron de Microsoft parle d’AGI, quantique, de LLM et de jeux vidéo.
N’hésitez à me contacter si vous avez des remarques et suggestions sur cette newsletter, ou si dans votre entreprise vous cherchez à être accompagnés dans l’intégration d’outils IA et d’IA générative : olivier@255hex.ai
Partagez cette newsletter
Et si vous n’êtes pas abonné, il ne tient qu’à vous de le faire !
“Another hope feeds another dream
Another truth installed by the machine
A secret wish, a marrying of lies
Today you find is true what common sense denies”
Bon weekend.