Bienvenue sur IA Pulse Weekend. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : un coup de gueule édito, une sélection de 3 articles avec pour chacun un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir, et pour finir 1 podcast à écouter.
⏱️Temps de lecture de cette newsletter par une unité carbone : 9 mins
Notre cerveau est fantastique. D’un coté il imagine, de l’autre il oublie. Ce qui fait de nous des êtres exceptionnels. Une réelle différence avec l’IA.
Il y a un an certains nous promettaient un monde où le travail aurait quasiment disparu dans l’année grâce à ChatGPT, reprenant ainsi le discours marketing porté par les ambassadeurs de la Silicon Valley. D’autres se lamentaient de voir le savoir humain s’évaporer car les sources disparaissaient dans les méandres des réseaux neuronaux des modèles de langage, montrant ainsi leur incompréhension dans l’utilisation de ces modèles et de facto reprenant et validant indirectement le discours venu de la Côte-Ouest des Etats-Unis. Il y avait aussi ceux qui ne voyaient qu’une mode passagère, critiquant aussi bien comme les précédents la perte des sources, que pointant l’inutilité de ces outils trop synthétiques, trop probabilistes, pour être bons à quoi que ce soit. La plupart ont évolué, ont changé d’optique, ont mis de l’eau dans leur vin, ont pris en compte les évolutions et la situation. Pour mieux changer encore demain - d’ailleurs j’espère moi aussi être comme eux.
Merci à notre cerveau, à notre capacité à oublier. C’est le thème de l’article qui fait réfléchir cette semaine : l’oubli. Et aussi les petits chats. Deux thèmes en un.
Dans l’actu de la semaine, il faut retenir les grandes manœuvres autour des données d’entrainement. Reddit, après avoir fermé son API il y a quelques mois, vient de signer plusieurs accords de licence d’utilisation de ses contenus à des fins d’entrainement des modèles de langage. Parmi les signataires, un certain Google va débourser 60 millions de dollars cette année pour accéder à ces contenus. Je vois déjà certains rêver, espérant pouvoir aussi utiliser cette tactique.
D’autres ont décidé de ne plus rêver. Après avoir lancé des poursuites judicaires contre “les géants de l’IA qui pillent leur contenu”, puis embauché une équipe IA en interne, ils lancent leur premier produit. C’est le cas du New York Times qui développe un outil publicitaire à base d’IA pour mieux servir ses annonceurs. Une autre tactique que certains - les mêmes ? - regardent avec envie ou curiosité.
Et puis il y a Adobe. Cet autre géant continue son chemin. Après avoir intégré Firefly, son IA générative d’images, à Photoshop et autre Illustrator, Adobe lance un assistant IA directement dans Acrobat. Les services tiers et autres plug-ins permettant de “dialoguer” avec un PDF sont définitivement morts. Maintenant Adobe propose nativement cette fonction, et a priori ne compte pas s’arrêter là. Coucou Sam !
Cette semaine la partie de cette newsletter gérée par l’IA, les 3 premiers résumés d’articles, a été générée par GPT-4-0125-preview. Comme d’habitude trop souvent j’ai fait quelques modifications, mais j’ai aussi laissé quelques tournures typiques des modèles de langage. Et bien entendu, mes commentaires éventuels sont en italique dans ces résumés. Le texte de “l’article qui fait réfléchir” est issu d’un ping-pong entre ChatGPT 3.5 et votre serviteur. L’image d’illustration ci-dessous est générée par Midjourney.
📰 Les 3 infos de la semaine
😼 Reddit cashes in on AI gold rush with $203M in LLM training license fees
Ars Technica, 23/2/2024
Reddit a conclu des contrats importants avec Google et d'autres entreprises pour fournir son contenu pour entraîner des modèles de langage artificiels. Ces accords de licence, qui durent entre deux et trois ans, devraient générer 203 millions de dollars pour Reddit. L'entreprise prévoit de percevoir 66,4 millions de dollars dès cette année.
La valeur de ces accords réside dans l'accès total et en continu aux données de Reddit qui sont en constante évolution avec de nouvelles interactions utilisateurs en permanence. Reddit avait constaté par le passé que ses données étaient utilisées gratuitement pour former des modèles de langage, et considérait que cela dépassait la notion de "fair use". L'entreprise cherche maintenant à monétiser officiellement ces données et à faire respecter ses droits de licence, même si cela pourrait entraîner des défis juridiques complexes et coûteux.
La situation soulève des questions sur le droit d'auteur et la légitimité du scraping de données pour l'entrainement des IA, un sujet qui reste juridiquement flou - en fait pas tant que ça, mais le flou supposé arrange tellement une partie de l’industrie. La présence de contrats de licence pourrait influencer la façon dont les tribunaux traitent les questions de "fair use".
En parallèle, Reddit se prépare à entrer en bourse, avec l'intention d'offrir à ses utilisateurs et modérateurs les plus engagés la chance de participer à cette introduction en bourse. La plateforme est également consciente que les modèles de langage tels que ChatGPT représentent une concurrence croissante, car ils offrent aux utilisateurs des moyens alternatifs de trouver des informations, ce qui pourrait influencer la dynamique du site.
🐈 NYT plans to debut new generative AI ad tool later this year
Axios, 20/2/2024
Le New York Times (NYT) développe un outil publicitaire basé sur l'intelligence artificielle générative qu'il prévoit de tester avec des partenaires sélectionnés au cours du prochain trimestre. Cet outil a pour objectif de recommander les emplacements les plus efficaces pour les campagnes publicitaires en fonction de leur contenu et de leurs objectifs. En utilisant l’IA générative, le NYT va cibler des audiences spécifiques en analysant leurs intérêts, objectifs et opinions.
L'outil est le fruit d'un travail interne et utilise divers modèles de langage pour fonctionner, y compris des modèles commerciaux et open-source. Il est conçu pour être compatible avec n'importe quel grand modèle de langage. Cette innovation vient à un moment où le NYT possède une audience de plus de 10 millions d'abonnés payants et 100 millions de lecteurs enregistrés, offrant ainsi une base solide pour les tests publicitaires.
Les marques intéressées par cet outil ne pourront pas l'utiliser directement, mais pourront collaborer avec l'équipe publicitaire du NYT pour l'appliquer à leurs campagnes. La tarification de ce service n'a pas encore été déterminée et dépendra des résultats des tests initiaux.
Cet outil est conçu pour simplifier la planification et l'optimisation des campagnes publicitaires, permettant une réactivité en temps réel et évitant les associations de contenu inappropriées pour les marques. Malgré un contexte juridique complexe en raison d'un procès en cours avec OpenAI, le NYT continue à investir dans la technologie d’IA générative pour améliorer son offre de produits digitaux.
🐯 Adobe Acrobat adds generative AI to ‘easily chat with documents’
The Verge, 20/2/2024
Adobe a ajouté une fonctionnalité d'intelligence artificielle dans son logiciel Acrobat - c’est peut-être un détail pour vous… - offrant aux utilisateurs la possibilité de dialoguer avec les documents PDF pour en faciliter la navigation et la compréhension. Baptisé "AI Assistant in Acrobat", cet outil utilise une IA conversationnelle pour résumer les documents, répondre à des questions et en proposer de nouvelles, adaptées au contenu du fichier.
Destiné à rendre le travail moins fastidieux avec de vastes volumes de texte, l'assistant peut être particulièrement utile pour les étudiants et les professionnels qui cherchent à extraire rapidement des informations ou à condenser des rapports en points essentiels pour des communications variées. L'outil est compatible avec les formats pris en charge par Acrobat, y compris Word et PowerPoint, et respecte les protocoles de respect de la vie privée et de sécurité de données d'Adobe, garantissant qu'il ne conserve ni n'utilise les données des clients pour l'entraînement de l'IA.
L'AI Assistant peut recommander des questions pertinentes, fournir des réponses avec des citations pour vérifier les sources et créer des liens directs vers les sections pertinentes des documents. Il aide aussi à consolider et mettre en forme l'information pour une utilisation dans des contextes comme les e-mails et les présentations.
Actuellement en version bêta et disponible sans coût supplémentaire pour les abonnés Acrobat, l'outil sera plus tard intégré dans un plan d'abonnement distinct. Adobe prévoit d'élargir les capacités de l'assistant, notamment par l'intégration de son modèle d'IA Firefly, l'extraction d'informations de divers documents simultanément, et l'assistance à la rédaction de brouillons et à l'édition de textes - résumé du résumé : Adobe sort son ChatGPT qui respecte la vie privée et qui va être disponible chez tous ceux qui possèdent une licence Acrobat ou Creative Cloud. Un concurrent sérieux de plus, Sam.
🧠 L’article qui fait réfléchir - et qu’il faut absolument lire
Why forgetting things is a key part of the way your brain works
Don’t you
L'oubli, souvent perçu négativement dans le contexte humain, est en réalité un mécanisme cérébral essentiel qui facilite la généralisation et l'adaptabilité face à un environnement changeant. Contrairement aux modèles d'intelligence artificielle (IA), notamment les modèles de langage (LLM) qui ne "peuvent pas oublier", le cerveau humain utilise l'oubli comme un outil pour maintenir sa flexibilité cognitive. Alors que les modèles d’IA traitent une quantité massive d'informations sans les filtrer par l'oubli, le cerveau humain sélectionne activement les informations à conserver ou à éliminer, permettant une adaptation plus fluide aux nouvelles situations.
La capacité humaine à généraliser, à reconnaître des schémas ou des objets dans différentes configurations sans se perdre dans les détails superflus, est directement liée à ce processus d'oubli. Par exemple, identifier un objet comme étant une chaise sans avoir besoin de se rappeler chaque chaise spécifique aperçue dans le passé illustre comment l'oubli contribue à notre compréhension conceptuelle du monde. Cela change totalement de la manière dont le Machine Learning et le Deep Learning fonctionnent : pas besoin de voir 1 million de photos différentes de petits chats pour reconnaitre efficacement un petit chat sur une nouvelle image. Un enfant sait reconnaitre et généraliser la reconnaissance d’un petit chat dès la seconde ou la troisième fois qu’il en aperçoit un.
Cette différence souligne une distinction cruciale entre l'intelligence artificielle et le fonctionnement cognitif humain. Par exemple, les modèles d’IA avec leur capacité à accéder à des quantités vastes de données, peuvent surpasser les humains dans la rétention d'informations. Cependant, cette capacité peut également les amener à manquer de l'agilité nécessaire pour généraliser ou s'adapter aux changements de manière aussi efficace que le cerveau humain, qui bénéficie de l'oubli pour remodeler continuellement ses schémas de pensée et ses perspectives.
En d’autres termes, l'oubli naturel chez l'humain permet de distinguer l'essentiel de l'accessoire, favorisant une compréhension plus profonde et moins encombrée du monde. A l’opposé, les différent modèles d’IA et les LLM en particulier, peuvent se heurter à des limites dans la gestion de l'obsolescence des informations ou dans la surcharge d'informations sans pertinence actuelle, reflétant l'importance de l'oubli comme mécanisme de filtrage et de mise à jour des connaissances.
Des recherches sur les engrammes, qui sont les traces biologiques de la mémoire dans le cerveau humain c’est-à-dire les réseaux de neurones qui codent les souvenirs, ont montré que même les souvenirs "oubliés" demeurent accessibles sous certaines conditions, ce qui suggère que ces souvenirs ne sont pas totalement perdus mais simplement inactifs. Encore une fois cela contraste fortement avec le fonctionnement des LLM qui ne "forgettent" pas activement, mais qui devraient être programmés explicitement pour ignorer ou déprioriser certaines informations.
Intégrer des mécanismes d'oubli ou de priorisation dynamique des informations dans les modèles d'IA pourrait représenter une avancée significative, rapprochant leur fonctionnement de l'efficacité et de la flexibilité du cerveau humain. Cela permettrait peut-être d’ouvrir la voie à des systèmes d'IA plus adaptatifs, capables de mieux généraliser à partir d'expériences variées et d'ajuster leurs réponses en fonction des contextes en évolution, un parallèle fascinant - “Spock à l’inter”, entre l'évolution des capacités cognitives humaines et le développement de l'intelligence artificielle.
📻 Le podcast de la semaine
Parlez-moi d’IA : comment l’IA peut-il être un outil créatif pour le design ? Entretien avec Etienne Mineur.
Au cours de cette émission Jean-Philippe Clément et Étienne Mineur explorent l'impact des IA génératives sur la créativité, entre améliorations qualitatives et controverses juridiques. Étienne Mineur discute de la fine ligne entre inspiration et copie par l'IA, partageant comment il intègre ces outils comme assistants dans sa démarche créative. Il souligne l'importance de la créativité humaine face aux défis du copyright, conseillant une adaptation proactive aux évolutions des métiers créatifs tout en exploitant l'IA pour enrichir la créativité.
N’hésitez à me contacter si vous avez des remarques et suggestions sur cette newsletter, ou si dans votre entreprise vous cherchez à être accompagnés dans l’intégration d’outils IA et d’IA générative : olivier@255hex.ai
Partagez cette newsletter
Et si vous n’êtes pas abonné, il ne tient qu’à vous de le faire !
Bonne tempête et bon weekend.