Bienvenue sur IA Pulse Weekend. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : un coup de gueule édito, une sélection de 3 articles avec pour chacun un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir, et pour finir 1 podcast à écouter.
⏱️Temps de lecture de cette newsletter par une unité carbone : 9 mins
Quels usages pour moi ? Quelle fiabilité au quotidien ? Ce sont bien les principales questions qui importent aux utilisateurs des chatbots, et autres modèles de langage, que nous sommes. Quelle que soit notre profession, quel que soit notre degré de compréhension de la mécanique de ces modèles. Et tout le reste n’est que littérature - pour nous autres. Tous les grands de l’IA l’ont bien compris. Ils nous abreuvent en continu de nouvelles neuves nous vantant les performances quasi humaines de leur modèle qui est bien meilleur que celui du concurrent - et souvent aussi voisin de labo. La pression marketing et le mirage est tel que nous sommes nombreux, je n’y coupe pas, à nous intéresser en premier aux performances mesurées en labo, aux caractéristiques purement techniques de ces modèles, au lieu de penser aux usages réels et à la pratique. C’est cette semaine le thème de “l’article qui fait réfléchir.”
Mais parlons aussi de performance et d’usage dans les 3 infos de la semaine. D’abord avec la sortie du nouveau LLM d’Anthropic, sobrement nommé Claude-3. Il serait doté de performances hors du commun nous dit-on. Puis regardons Google qui décide peut-être, on jugera sur les résultats, de s’attaquer aux sites de spam générés par l’IA. D’ailleurs spam n’est pas vraiment le bon terme. L’attaque va bien au delà. Enfin, comment faut-il regarder cela ? Marilyn est de retour. Enfin son double numérique. Parfait.
Et pour terminer, je vous invite à écouter l’émission “le Meilleur des mondes” consacrée au livre de Marion Carrée qui retrace le trajet professionnel d'Alice Recoque, une figure avant-gardiste de l'informatique.
Cette semaine la partie de cette newsletter gérée par l’IA, les 3 premiers résumés d’articles, a été générée par Claude 3 - Opus. Comme d’habitude trop souvent j’ai fait quelques modifications, mais j’ai aussi laissé quelques tournures typiques des modèles de langage. Et bien entendu, mes commentaires éventuels sont en italique dans ces résumés. Le texte de “l’article qui fait réfléchir” est aussi issu d’un ping-pong entre Claude 3 - Opus et votre serviteur. L’image d’illustration ci-dessous est générée par Midjourney.
📰 Les 3 infos de la semaine
🙊 The AI wars heat up with Claude 3, claimed to have “near-human” abilities
Ars Technica, 4/3/2024
Anthropic vient de lancer Claude 3, sa nouvelle génération de modèles de langage présentant des capacités impressionnantes, parfois proches de celles des humains - oh mon dieu… Cette famille de trois modèles, nommés Haiku, Sonnet et Opus, se distingue par une complexité et un nombre de paramètres croissants par rapport à l’ancienne génération. Opus, le plus puissant, n'est accessible que via un abonnement payant - non disponible officiellement en France.
Selon Anthropic, Claude 3 Opus surpasse GPT-4 - et pas GPT-4 turbo ? - le modèle de référence actuel, sur 10 benchmarks d'IA. Cependant, ces résultats doivent être interprétés avec prudence, les nouveaux modèles de langage étant de plus en plus optimisés et entrainés pour performer dans les tests et les benchmarks du marché. Les modèles de Claude 3 présentent des améliorations significatives par rapport à Claude 2 dans de nombreux domaines, tels que l'analyse, la prévision, la création de contenu, la génération de code et la conversation multilingue. Ils disposent également de capacités visuelles avancées - prends garde à toi GPT-4v !
Anthropic met en avant la rapidité et les coûts d’utilisation moins importants de ses modèles par rapport aux générations précédentes et aux modèles concurrents. L'utilisation de données synthétiques générées par l'IA lors de l'entraînement de Claude 3 constitue une avancée majeure pour améliorer la qualité de l’entraînement - ah l’entrainement sur des données synthétiques, un moyen de ne payer aucuns droits à personne.
Pour finir, n’oubliez pas qu’il est essentiel de tester soi-même les différents modèles, car leur efficacité peut varier considérablement en fonction des tâches et du style de prompt utilisé - tout est là, c’est à vous petits êtres humains de faire des ces modèles des alliés. A ce propos, n’hésitez pas à lire (quand vous aurez 15 mins) le dialogue que j’ai eu avec Claude-3 à propos des œufs de brebis et de HAL 9000. Anthropic a fait du bon boulot pour nous faire croire que son modèle sans âme a une conscience :
🍖 Google Is Finally Trying to Kill AI Clickbait
Wired, 5/3/2024
Google vient d'annoncer une série de mesures visant à endiguer la prolifération du spam généré par l'IA dans ses résultats de recherche - oh la la la... Au cœur de cette initiative se trouve une refonte de sa politique anti-spam, dont l'objectif est de réduire de 40% la présence de contenus de faible qualité et non originaux. Cette mise à jour cible en priorité les abus à grande échelle, où des acteurs malveillants inondent internet d'articles produits par des outils d'IA dans le but de manipuler le référencement - c’est pas trop tôt.
Le spam lié aux notices nécrologiques - toute ressemblance… - illustre de manière frappante l'ampleur du problème. Des individus peu scrupuleux récupèrent les avis de décès pour les republier sur différents sites web, parfois même sur des plateformes comme YouTube, dans le seul but de générer des revenus. Avec l'avènement des outils d'intelligence artificielle, cette forme de piratage numérique a pris une nouvelle dimension : les spammeurs peuvent désormais produire ces contenus en masse, inondant ainsi internet de notices nécrologiques factices. La nouvelle politique anti-spam, si elle est appliquée efficacement, devrait contribuer à endiguer ce fléau en rendant plus difficile l'apparition de ce type de contenu dans les résultats de recherche.
Google entend également s'attaquer au "domain squatting", une pratique qui consiste à racheter des sites web abandonnés jouissant d'une certaine notoriété pour y publier des articles générés par IA. L'essor d'outils comme ChatGPT a exacerbé ce problème en rendant la production de contenu à grande échelle plus accessible.
En parallèle, Google souhaite mettre un terme à "l'abus de réputation" - ah là certains doivent commencer à se poser des questions, qui survient lorsque des sites web réputés laissent des tiers y publier du contenu sponsorisé de piètre qualité. Si les autres volets de la politique anti-spam seront appliqués sans délai, Google accorde un sursis de 60 jours avant de sévir contre ce type d'abus, laissant ainsi aux sites concernés le temps de se conformer aux nouvelles règles.
Bien que certains experts en référencement accueillent ces changements avec un optimisme prudent, espérant qu'ils contribueront à restaurer l'efficacité de la recherche Google, il faudra attendre de constater leurs effets concrets. Cette mise à jour, en gestation depuis fin 2022, s'inscrit dans le cadre des efforts plus larges de Google pour améliorer la qualité des contenus présents dans ses résultats de recherche et ainsi offrir une expérience utilisateur optimale.
👀 AI Version of Marilyn Monroe Unveiled at SXSW
The Hollywood Reporter, 8/3/2024
L'arrivée de "Digital Marilyn", une intelligence artificielle reproduisant fidèlement la voix et la personnalité de Marilyn Monroe, marque une nouvelle étape dans l'utilisation de l'IA dans l'industrie du divertissement. Née de la collaboration entre Authentic Brands Group, détenteur des droits de la star disparue, et la société spécialisée Soul Machines, cette technologie de pointe permet aux fans d'interagir en temps réel avec une version numérique de l'icône.
Grâce à des algorithmes avancés de traitement du langage et d'apprentissage profond, Digital Marilyn est capable de converser, de partager des anecdotes et de délivrer des messages personnalisés en imitant à la perfection les intonations et les manières de Marilyn Monroe. Cette prouesse technologique ouvre la voie à de nouvelles formes d'interactions immersives entre les célébrités et leur public, offrant une expérience inédite de connexion avec une légende disparue.
Cependant, l'annonce de ce projet soulève également des inquiétudes et des critiques, dans un contexte où le rôle de l'IA dans l'industrie du divertissement est devenu un sujet brûlant. Les récentes grèves des acteurs et des scénaristes ont mis en lumière les craintes des professionnels face à l'impact potentiel de ces technologies sur leur métier. Tyler Perry, célèbre producteur et réalisateur, a lui-même suspendu un important projet d'expansion de ses studios après avoir pris connaissance des capacités de l'IA Sora d'OpenAI, appelant à une régulation pour protéger l'industrie.
🧠 L’article qui fait réfléchir - et qu’il faut absolument lire
Why most AI benchmarks tell us so little
Marketing, chercheurs et communs des mortels
Anthropic, Inflection, Google, OpenAI… Les géants de l'IA rivalisent d'effets d'annonce, chacun proclamant avoir développé le meilleur modèle de langage. Cette semaine Claude-3 d’Anthropic - utilisé ici - a mis tout le monde d’accord, devenant provisoirement le meilleur élève dans la hiérarchie des modèles de langage testés par des benchmarks automatisés. Mais au-delà des superlatifs marketing, comment s'y retrouver ? Les benchmarks utilisés pour évaluer ces systèmes sont-ils vraiment un reflet fidèle de leurs capacités ? Et surtout ces benchmarks reflètent-ils réellement l’usage courant du commun des mortels ? Une histoire de focale ou de granularité en somme.
Aujourd'hui, la plupart de ces tests sont tristement déconnectés de la réalité. Axés sur des tâches académiques pointues, ils ne reflètent en rien l'usage quotidien que fait le grand public des chatbots et autres assistants virtuels. Les développeurs et chercheurs ont beau s'enorgueillir qu'un modèle sache résoudre des équations biscornues, ou passer l’examen du barreau, le commun des mortels s'en moque éperdument - moi le premier. Ce qu'il veut, ce qu’il recherche, c'est un outil pratique pour rédiger ses mails, améliorer son anglais, ou l'aider à coder. Et que cet outil soit un maximum fiable dans son utilisation.
Et pour en rajouter un peu plus, certains benchmarks peuvent être “réussis” par pure mémorisation mécanique, sans que le modèle n'ait la moindre once de “compréhension” de ce qu'elle fait. Il “suffit” alors aux développeurs d’entrainer spécifiquement leur modèle pour que ce dernier affiche une performance hors du commun… la belle affaire ! Toute ressemblance avec les benchs CPU ou GPU d’il y a quelques années serait bien entendu pure coïncidence.
Il faut donc réinventer notre façon de mesurer la performance des modèles de langage, pour coller aux usages concrets des utilisateurs. Fini les métriques absconses sorties de la tête des chercheurs : place à l'évaluation par de vraies personnes, sur des tâches réelles ! Qualité des réponses, pertinence, utilité perçue… Voilà ce qui compte. Parce que nous sommes tous d’accord : l’humain est bien plus fiable que la machine pour évaluer ce qui lui est utile. Toujours cette histoire de focale.
Et pour bâtir ces benchmarks nouvelle génération, c’est simple. Allons voir comment les gens se servent vraiment des modèles et chatbots au quotidien. Identifions les requêtes les plus courantes, des plus basiques aux plus créatives. Et surtout, donnons la parole aux utilisateurs pour qu'ils jugent eux-mêmes de la valeur des résultats. On va quand même demander aux développeurs, scientifiques et chercheurs de nous aider là dessus. Au moins du point de vue méthodologique.
En remettant ainsi l'humain et les cas concrets au cœur de l'évaluation, on pourra peut-être enfin comparer les modèles de langage sur des critères tangibles. Parce qu'un modèle qui cartonne en labo mais échoue lamentablement dans la vraie vie, ça ne sert à rien. Seule compte sa capacité à apporter une aide réelle aux utilisateurs, de façon efficace et fluide. Tout le reste n'est que poudre aux yeux. Du concret Coco, du concret.
📻 Le podcast de la semaine
Entretien avec Marion Carré : Alice Recoque ou l’histoire méconnue d’une pionnière de l’informatique
Une émission consacrée au livre de Marion Carrée qui retrace le trajet professionnel d'Alice Recoque, une figure avant-gardiste de l'informatique, dont l'existence et les contributions auraient facilement pu être occultées de l'histoire.
N’hésitez à me contacter si vous avez des remarques et suggestions sur cette newsletter, ou si dans votre entreprise vous cherchez à être accompagnés dans l’intégration d’outils IA et d’IA générative : olivier@255hex.ai
Partagez cette newsletter
Et si vous n’êtes pas abonné, il ne tient qu’à vous de le faire !
Bon weekend.