Bienvenue sur IA Pulse Weekend. Cette édition porte le numéro 72. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : un coup de gueule édito, une sélection de 3 actualités avec pour chacune un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir et 1 podcast à écouter.
⏱️Temps de lecture de cette newsletter par une unité carbone : 10 mins
La bulle de l’IA va éclater ! C’est une petite musique que l’on entend depuis quelques semaines. Musique propagée en grande partie par les mêmes qui ont fait monter la “hype” de l’IA générative, en reprenant quasiment mot pour mot pendant des mois les discours formatés et les artifices de communication des grands et des petits de l’IA en quête de fonds frais, OpenAI en tête. Sans recul, ni regard critique - ou si peu. On verra si ça éclate ou pas.
La réglementation européenne tue l’innovation ! Seconde musique que l’on entend, depuis plus longtemps celle-ci, et généralement jouée par les mêmes personnes que précédemment. Musique soutenue cette semaine par les déclarations de Zuck et de son ami Daniel de Spotify dans un article de The Economist. Leurs arguments sont repris en chœur pour dénoncer la régulation. C’est sûr, Zuck est un modèle pour parler de régulation voire du respect des règles qu’il édicte lui-même, c’est-à-dire d’auto-régulation. C’est comme si les dernières années avaient été effacées de l’Histoire. Il suffirait donc d’être “open source” pour être dans le camp des gentils qui veulent du bien au monde entier. Au sujet de l’open source, je vous laisse lire l’article qui fait réfléchir. L’OSI a enfin donné une définition claire de l’IA open source, et pas certain que ça plaise à Zuck. Et sur le thème de la régulation, je vous laisse écouter le podcast de la semaine avec Alex Combessie de Giskard.
IA-Pulse a probablement perdu 30% d’abonnés avec cet édito. C'est GPT-4o qui me l’a prédit en mode Madame Irma. On fait le bilan la semaine prochaine.
Pour celles et ceux qui restent, cette semaine dans l’actu on parle de Trump et de Swift, de Perplexity et de son modèle publicitaire, de Meta et de sa collecte de données avec son crawler lancé dans une relative discrétion - Rep à Sa Mark.
Cette semaine la partie de cette newsletter gérée par l’IA, les 3 clusters d’articles, a été générée par Claude 3.5 pour les résumés des articles sources, la génération du cluster et de son titre. Comme d’habitude j’ai fait quelques modifications, mais j’ai aussi laissé quelques tournures typiques des modèles de langage. Et bien entendu, mes commentaires éventuels sont en italique dans ces résumés. Le texte de “l’article qui fait réfléchir” est issu d’un ping-pong entre GPT-4o et moi-même.
L’image d’illustration ci-dessous est générée par Midjourney.
📰 Les 3 infos de la semaine
🥸Donald Trump et Taylor Swift amis pour la vie
Donald Trump a délibérément provoqué cette semaine une controverse en partageant sur son réseau social Truth une série d'images générées par l’IA, suggérant un soutien de Taylor Swift à sa campagne présidentielle 2024. Ces images montrent un montage de Taylor Swift en tenue d'Oncle Sam avec le slogan "Taylor veut que vous votiez pour Donald Trump", ainsi que des photos de supposées fans arborant des t-shirts "Swifties for Trump".
Ce partage a rapidement attiré l'attention des médias et des experts en désinformation. Taylor Swift n'a exprimé aucun soutien pour l'élection de 2024. Lors de l'élection de 2020, elle avait publiquement soutenu Joe Biden et Kamala Harris, critiquant ouvertement la présidence de Trump pour sa gestion de la pandémie de COVID-19 et son attitude envers les minorités.
Cet incident pose des questions sur l'utilisation de l'IA dans les campagnes politiques. Les images partagées par Trump proviennent en partie d'un compte satirique sur X Twitter, mais leur diffusion par un candidat à la présidence brouille la frontière entre la satire et la désinformation délibérée.
Sur le plan légal, cet épisode pourrait avoir des implications. Certains experts s'interrogent sur la possibilité que ces actions violent des lois récentes, comme l'ELVIS Act du Tennessee, conçu pour protéger les artistes contre les imitations non autorisées par l'IA. Bien que cette loi se concentre principalement sur les clonages audio, l'incident pourrait servir de test case pour élargir son application aux images générées par IA.
Au niveau fédéral, la Federal Election Commission (FEC) est confrontée à la nécessité d'établir de nouvelles directives concernant l'utilisation de l'IA dans les communications politiques. Actuellement, il n'existe pas de réglementation spécifique sur l'utilisation de contenu généré par IA dans les campagnes électorales, ce qui crée une zone grise juridique.
L'influence potentielle de Swift sur l'électorat ajoute une dimension supplémentaire à cette controverse. Avec plus de la moitié des adultes américains se considérant comme fans de la chanteuse, son soutien pourrait avoir un fort impact sur une élection serrée.
Pourquoi est-ce important ? Ce cas d’espèce illustre comment l'IA peut être utilisée pour manipuler l'opinion publique dans le cadre d'une campagne électorale, et souligne l'urgence d'établir des réglementations adaptées à ces nouvelles technologies.
Sources : Consequence Sound, Wired, TechCrunch
🪧 Perplexity : c’est dans le vieux pots de la pub qu’on fait ses meilleurs revenus… peut-être
Perplexity s'apprête à lancer sa plateforme publicitaire au quatrième trimestre 2024. Valorisée à plus d'un milliard de dollars, l'entreprise se positionne comme un concurrent potentiel de Google en proposant des réponses directes aux requêtes des utilisateurs, plutôt qu'une liste de liens. L'IA de Perplexity analyse, comprend et synthétise l'information pour offrir des réponses concises et pertinentes. Cette méthode répond à un besoin croissant de rapidité et d'efficacité dans notre consommation d'information.
Avec plus de 230 millions de requêtes traitées mensuellement et une croissance de 800% aux États-Unis sur l'année écoulée, Perplexity attire un public hautement qualifié. Selon les données de l'entreprise, 82% de ses utilisateurs sont diplômés de l'université, 30% occupent des postes de direction et 65% exercent des professions à hauts revenus.
Pour monétiser son service, Perplexity prévoit d'introduire des formats publicitaires natifs, comme des questionnaires sponsorisés et des vidéos contextuelles, intégrés de manière fluide à l'expérience utilisateur. Le modèle de tarification sera basé sur le coût par mille impressions (CPM), avec des taux dépassant 50 dollars, bien au-dessus des moyennes du secteur. Perplexity indique cibler les annonceurs premium - ah ouais, non jure…
En parallèle, Perplexity a lancé il y a quelques semaines un programme de partage des revenus avec les éditeurs. Ce programme vise à faire baisser les tensions liées à l'utilisation du contenu des médias par les plateformes d'IA. Des publications comme TIME, Der Spiegel et The Texas Tribune ont déjà rejoint le programme. Cependant, Perplexity n'échappe pas aux controverses. L'entreprise a été accusée de plagiat par Forbes et Wired.
Pourquoi est-ce important ? L'approche de Perplexity, combinant recherche IA, publicité ciblée et partage des revenus avec les éditeurs - rien de bien de nouveau et assez logique en fait, certains l’avaient prédit - pourrait définir un équilibre entre plateformes technologiques IA et créateurs de contenu, tout en offrant aux utilisateurs une nouvelle façon d'accéder à l'information en ligne.
Sources : CNBC, Observer, Adweek, F.R.
🕷️ Web scraping et IA : Meta intensifie sa collecte de données en ligne
mais on est open source, donc ça va on est gentil → non
Meta, la société mère de Facebook, Instagram et WhatsApp, a discrètement lancé un nouveau crawler nommé Meta External Agent - j’en parlais dès la fin du mois de juillet sur Medium lors de la publication de la liste mensuelle des sites bloquants les bots IA. Ce bot parcourt Internet pour copier et collecter des données publiquement accessibles, telles que le texte d'articles de presse, les conversations dans des forums en ligne, ou tout autre contenu public. L'objectif principal est d'alimenter en données les modèles d'IA de l'entreprise, notamment pour améliorer son modèle de langage Llama et ses diverses applications.
Cette pratique de collecte massive de données - ou scraping, est devenue courante la norme dans l'industrie. Les grandes entreprises technologiques, comme OpenAI avec son GPTBot, utilisent des crawlers similaires pour enrichir leurs bases d'entraînement. Cependant, le lancement discret de ce crawler par Meta soulève quelques interrogations. Alors qu'environ 25% des sites web les plus populaires aux US bloquent le GPTBot d'OpenAI, seulement 2% bloquent actuellement le nouveau bot de Meta, principalement en raison du manque de communication de l'entreprise sur son existence - fin juillet en France, les seuls sites médias à bloquer explicitement ce bot étaient les sites de TF1.
Meta justifie cette pratique de collecte en expliquant que, comme les autres entreprises du secteur, elle entraîne ses modèles d'IA générative sur des contenus publiquement disponibles en ligne. L'entreprise a également mis à jour ses directives pour permettre aux éditeurs d'exclure leurs domaines du crawling lié à l'IA - un disallow dans le fichier robots.txt. Cependant, cette option de désengagement (opt-out) place la responsabilité sur les propriétaires de sites web plutôt que sur Meta - là aussi Meta fait comme les autres.
La stratégie de Meta s'inscrit dans un contexte plus large de course à l'IA. Mark Zuckerberg a récemment vanté la supériorité de l'ensemble de données de son entreprise par rapport à des sources comme Common Crawl, une base de données publique largement utilisée pour l'entraînement d'IA. Le lancement de ce nouveau crawler suggère que même les vastes ressources de Meta pourraient ne plus suffire pour maintenir la compétitivité de ses modèles d'IA.
Pourquoi est-ce important ? Le lancement discret de ce crawler par Meta montre bien l'intensification de la collecte de données pour l'IA, quels que soient les acteurs en place et l’affichage de leurs bonnes ou mauvaises pratiques.
Sources : Fortune, Medium
🧠 L’article qui fait réfléchir - et qu’il faut absolument lire
We finally have a definition for open-source AI
It’s a nice day to start again
L'Open Source Initiative (OSI), organisme de référence en matière de logiciels libres, vient de publier une définition très attendue de l'IA open source. Le but est de clarifier un concept jusqu'alors sujet à diverses interprétations et à guider les législateurs dans l'élaboration de réglementations pour encadrer le développement de l'IA - en fait d’interprétation, c’était surtout la manipulation sémantique et de communication de certains acteurs qui voulaient et veulent toujours paraître comme des “gentils qui font de l’open pour le bien de tous”. On en parlait déjà à cette même place en mai dernier.
La nouvelle définition établit plusieurs critères clés pour qu'un système d'IA soit considéré comme open source. Il doit pouvoir être utilisé sans restriction, permettre l'inspection de ses composants et l'étude de son fonctionnement. La modification du système et sa redistribution, avec ou sans changements, doivent également être autorisées. Un point particulièrement important concerne la transparence des données d'entraînement, du code source et des poids du modèle.
Cette clarification était nécessaire dans un contexte où même des géants technologiques comme Meta et Google, qui proposent des modèles accessibles, ne sont pas considérés comme véritablement open source par certains experts - à raison. En effet, leurs licences restreignent souvent l'utilisation des modèles et les ensembles de données d'entraînement ne sont généralement pas rendus publics.
L'élaboration de cette définition a impliqué un groupe diversifié de 70 personnes, incluant des chercheurs, des juristes, des décideurs politiques et des représentants d'entreprises technologiques majeures. Les discussions ont été particulièrement animées sur la question de la transparence des données d'entraînement. Le compromis final exige que suffisamment d'informations soient fournies pour qu'une personne qualifiée puisse recréer un système substantiellement équivalent, sans pour autant imposer la divulgation complète de tous les ensembles de données. La divulgation complète des données d'entraînement pourrait soulever des problèmes de droits d'auteur et de propriété intellectuelle - enfin pourrait surtout forcer les acteurs de l’IA à rétribuer comme il se doit les ayants droit.
L'OSI prévoit de mettre en place un mécanisme pour signaler les modèles décrits comme open source mais ne répondant pas à sa définition. Elle envisage également de publier une liste de modèles d'IA conformes à ses critères. Parmi les candidats potentiels figurent des modèles moins connus comme Pythia d'Eleuther, OLMo d'Ai2, et des modèles du collectif open source LLM360.
Cette définition établit un standard clair pour l'IA open source, ce qui va influencer le développement, la régulation et l'adoption des modèles d'IA. On peut toujours espérer qu’elle favorise une plus grande transparence dans l'industrie. Mais on a bien compris que la régulation tue l’innovation… même l’auto-régulation, même l’open source ? OH WAIT !!!!! Coucou Mark.
📻 Le podcast de la semaine
Paroles d’IA : Alex Combessie, Giskard - IA en entreprise : Risques, régulations et innovations
L'IA Act impacte les entreprises via la gestion des risques et la conformité des modèles IA, influençant l'innovation, la réglementation mondiale et l'open source. Alex Combessie au micro de Paul Mochkovitch.
👨🏽🦳👩🏽🦳 C’était mieux avant - Il y a 1 an
L’an dernier le New York Times se mettait en guerre contre OpenAI, pendant que Google lançait SGE et des ayants droit faisaient retirer un data set rempli de livres piratés.
N’hésitez à me contacter si vous avez des remarques et suggestions sur cette newsletter, ou si dans votre entreprise vous cherchez à être accompagnés dans l’intégration d’outils IA et d’IA générative : olivier@255hex.ai
Partagez cette newsletter
Et si vous n’êtes pas abonné, il ne tient qu’à vous de le faire !
Bon weekend.