Bienvenue sur IA Pulse Weekend. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : une sélection de 3 articles avec pour chacun un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir, et pour finir 1 podcast à écouter.
Pendant que de sondage en sondage on nous apprend que la fièvre ChatGPT fait peur aux salariés et même aux dirigeants étasuniens - je vous rappelle qu'il y a 6 mois certains oiseaux médiatiques nous prédisaient la fin du travail intellectuel humain avant l'été [éteignons nos postes de télévisions et arrêtons de cliquer sur des articles dans Google Discover, ça nous fera le plus grand bien intellectuel], nos grandes maisons IA essaient de nous transmettre leur enthousiasme débordant.
Sûr que ce n'est pas simple. Nos amies IA conversationnelles se trompent si souvent, y compris sur des tâches que l'on disait leur spécialité comme la génération de code informatique : 52 % des réponses données par les chatbots dans ce domaine sont erronées. Il faut donc toujours un humain pour vérifier et corriger en bout de chaîne. C'est plutôt rassurant, et ça devrait faire baisser la fièvre de certains.
Mais pas pour tous. Nos grandes maisons IA ont plus d'un tour dans leur sac et cherchent par tous les moyens à entraîner encore et encore leurs modèles, les noyant sous un déluge de données. Certaines petites maisons se sentant à l'abri des regards, tentent de faire passer de nouvelles clauses de service afin de s'autoriser elles-mêmes à utiliser nos conversations par exemple. Dommage pour toi Zoom, quelques fous relisent les clauses d'utilisation quand elles sont mises à jour.
Les plus grandes maisons IA ne se gênent pas avec ce genre de paravent. En Australie, Google vient de demander une exception au droit d’auteur pour continuer d’entrainer ses modèles sans rien demander à personne.
De son coté OpenAI, fière de rentrer dans le rang, permet enfin à tous les éditeurs qui le veulent de bloquer son crawler, GPTBot, pour que ce dernier ne récupère pas le contenu à des fins d’entrainement de modèles. Un premier pas vers une rétribution bien méritée de ceux qui permettront l’utilisation de leurs données.
D’ailleurs l’industrie musicale l’a bien compris aussi, et certaines maisons d’Entertainment s’associent à la maison IA Google afin de proposer une offre légale pour un outil IA permettant de générer de la musique à partir des chansons déjà existantes. L’industrie musicale a fini par apprendre des erreurs du passé.
En revanche, nous n’arriverons jamais à nous y faire, et pourtant c’est un des défauts des modèles de langage : les LLM ont de biais de toute sorte, y compris politique, et ce n’est pas demain que cela va changer. Non, l’IA n’est pas neutre, elle est à notre image.
📰 Les 3 infos de la semaine
🕸️ Now you can block OpenAI’s web crawler
The Verge, 07/08/2023
OpenAI a introduit une option permettant aux sites web de bloquer son web crawler, GPTBot, qui collecte des données pour entraîner ses modèles GPT. Les opérateurs de sites peuvent refuser l'accès à GPTBot via leur fichier Robots.txt ou en bloquant son IP. Les données recueillies pour ce crawler ont pour but d’améliorer les futurs modèles d'IA. Elles sont filtrées pour éliminer les contenus payants, les informations personnelles ou les textes non conformes aux politiques d'OpenAI. Cette initiative est la première étape vers une option permettant aux utilisateurs de refuser l’utilisation leurs données pour la formation des modèles linguistiques d'OpenAI.
La collecte de données par des entreprises comme OpenAI et Google a suscité des controverses. Des sites comme Reddit et Twitter ont tenté de restreindre l'utilisation de leurs contenus, et des débats sur la vie privée et le consentement ont été soulevés devant le Senat américain et le Parlement européen.
🧑🏻🎤 Google in Talks with Universal and Warner to Develop AI-Generated Music Tool
Consequence, 09/08/2023
L'ère de l'IA générative musicale s'annonce, poussant des géants de l'industrie comme Universal Music Group et Warner Music Group à collaborer avec Google. Ensemble, ils discutent de la création d'un outil permettant de produire de la musique générée par IA de manière légale. Google développe un outil pour encourager la créativité de l'IA tout en respectant les droits des artistes. Cela pourrait marquer la fin des mash-ups "deepfake", car avec cet outil, les artistes décideront de leur participation ou non. S'ils acceptent, leur œuvre pourrait être utilisée pour générer de nouveaux contenus, tout en leur garantissant leurs droits d'auteur.
Universal et Warner voient ce type d’outil comme une opportunité face aux défis posés par l'IA à leurs revenus, rappelant les enjeux rencontrés avec YouTube. Après avoir négocié avec YouTube, l'industrie musicale avait vu ses revenus augmenter de 2 milliards de dollars. Beaucoup espèrent que cet outil d'IA générative aura un impact similaire. Bien que les pourparlers soient encore à leurs débuts, l'IA générative devrait grandement influencer l'industrie musicale.
🎁 Why it’s impossible to build an unbiased AI language model
MIT Technology Review, 08/08/2023
Les modèles de langage AI sont devenus un sujet brûlant dans les débats culturels et politiques aux États-Unis, ainsi que dans de nombreux autres pays. Des commentateurs conservateurs accusent ChatGPT d'avoir un biais "woke", et des groupes conservateurs développent leurs propres chatbots AI. Elon Musk travaille sur "TruthGPT", un modèle cherchant la vérité, en opposition aux chatbots "politiquement corrects" d'OpenAI et Google. Cependant, un chatbot AI totalement neutre est une idée séduisante mais techniquement irréalisable.
Une étude a montré que ChatGPT et GPT-4 d'OpenAI avaient un biais libertaire de gauche, tandis que LLaMA de Meta était plus autoritaire de droite. Chan Park, chercheur ayant participé à cette étude, affirme qu'aucun modèle de langage ne peut être totalement exempt de biais politiques.
Un des mythes courants entourant l’IA est que l'IA serait neutre. Mais en réalité, elle reflète les biais de ses données, de ses créateurs et même de ses utilisateurs. Des chercheurs, comme Soroush Vosoughi, soulignent que les biais sont présents à chaque étape du développement d'un modèle. Corriger ces biais serait complexe. Cela dépasse le domaine purement technique.
🧠 L’article qui fait réfléchir - et qu’il faut absolument lire
What does it take to get AI to work like a scientist?
Meet your master
Avec l'évolution rapide des algorithmes d'apprentissage automatique, l'IA est perçue comme un outil qui pourrait non seulement faciliter le travail des scientifiques, mais aussi apporter une transformation fondamentale à la méthodologie scientifique elle-même. Cette vision est incarnée par le "Nobel Turing Challenge", lancé en 2021, qui vise à développer un programme informatique capable de réaliser une découverte scientifique digne d'un prix Nobel d'ici 2050.
Historiquement, l'idée d'intégrer l'IA dans la recherche scientifique n'est pas nouvelle. Dans les années 1970, le programme BACON, développé par un professeur de l'Université Carnegie Mellon, a été conçu pour identifier des lois physiques à partir de données. Cependant, les limitations en matière de puissance de calcul ont restreint son potentiel. Avec l'augmentation de la puissance de calcul dans les années 1990, des techniques plus sophistiquées, telles que la régression symbolique, ont vu le jour. Ces techniques ont permis de créer des algorithmes d'IA capables d'extraire de nouvelles formules à partir de vastes ensembles de données.
Cependant, malgré ces avancées, des défis majeurs subsistent. L'un des obstacles clés est la capacité de l'IA à représenter et à comprendre profondément la connaissance. IBM a tenté de répondre à ce défi avec AI Descartes, un programme qui intègre des connaissances préexistantes pour évaluer et découvrir de nouvelles lois scientifiques. Mais AI Descartes a ses propres limitations, notamment l'incapacité de réaliser des expériences et le besoin d'un système de connaissances encore plus structuré.
L’IA a du potentiel, mais avant de lui remettre un diplôme de Docteur, il y a encore du travail.
📻 Le podcast de la semaine
L’imagination est-elle affaire de perception ?
Dans cet épisode Etienne Klein reçoit Lionel Naccache, neurologue et chercheur en neurosciences, qui s'intéresse à la manière dont notre cerveau fabrique ce que nous imaginons. Ils explorent la question du rôle du cerveau dans notre perception de la réalité et dans la création de notre "conscience", que ce soit une conscience de soi ou du monde.
Une partie grandissante des chercheurs pensent que notre cerveau crée une sorte de "film" intérieur, où des images discontinues donnent l'impression d'un flux de conscience continu. Cette idée est comparée à une théorie du philosophe écossais David Hume du XVIIIe siècle, qui suggérait que la vie est une suite d'impressions discontinues reliées par l'habitude.
*** Attention autopromo ***
Si le sujet de la détection des textes IA vous intéresse, n’hésitez pas à lire les tests que j’ai commis : dans cette première partie, je m’attache à définir l’efficacité des outils dédiés à la détection des textes écrits par l’IA. Spoiler : vous connaissez déjà la réponse.
Mais le meilleur restera à venir dans une seconde partie publiée dans les prochains jours : quel taux de faux positifs ces outils détectent-ils ? C’est-à-dire, quel est le pourcentage de textes classés comme produits par l’IA alors que de vrais humains en sont les auteurs ?
*** Attention fin autopromo ***
N’hésitez à me contacter si vous avez des remarques et suggestions : olivier@255hex.ai
Partagez cette newsletter
Et si vous n’êtes pas abonné, il ne tient qu’à vous de le faire !
Bon weekend !