Bienvenue sur IA Pulse Weekend. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : une sélection de 3 articles avec pour chacun un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir, et pour finir 1 podcast à écouter.
⏱️Temps de lecture de cette newsletter par une unité carbone : 7 mins
Meta est surprenant, et terrifiant. En l’espace de quelques jours, les chercheurs, ingénieurs et publicitaires qui y travaillent, arrivent à nous sortir des chatbots à l’effigie de “stars” vivantes. Chatbots qui ne respectent pas la base de la base de l’éthique en IA : ces derniers affirment qu’ils sont bien des personnes réelles quand on les interroge et non pas des chatbots - si vous ne voyez pas où se situe le problème je veux bien en discuter avec vous.
Puis ce même groupe de personnes nous lance au visage un “Image Decoder” de ce qui se passe dans notre cerveau. Une IA qui arrive à décoder nos flux électriques dans notre cerveau et à les transformer en images: “oui nous avons ce que vous avez dans votre tête.”
Et pour finir, dans le même temps leur grand chef IA, Yann LeCun, est co-auteur d’un article remettant en cause les tests permettant l’évaluation des capacités des LLM, dont la suite logique est de s’interroger sur le bien-fondé des modèles dits fondation qui sont construits actuellement. Surprenant et terrifiant. C’est d’ailleurs ce dernier article qui est “l’article qui fait réfléchir cette semaine”.
Côté actualité, une étude nous indique ce qui ne nous savions déjà de manière quasi instinctive : les modèles de langage en savent beaucoup sur nous, uniquement en analysant nos questions et dialogues que nous avons avec eux. Ils sont comme nous, ils déduisent des paroles des autres tout un tas d’informations. Un belle imitation.
Imiter, copier, plagier. Nos plus belles activités. Newsweek nous en parle cette semaine en explorant le monde des sites copycats qui publient de manière automatique des “articles” des grands médias récris par l’IA. Un problème qui est bien plus ancien et profond que ces sites, ou que les tests faits au grand jour et médiatisés sur les réseaux sociaux.
Et pour finir on continue dans l’imitation et la copie : YouTube veut lancer son outil clonage de voix célèbres à destination des créateurs qui peuplent sa plateforme. Miam, on s’en réjouit d’avance.
📰 Les 3 infos de la semaine
🕵🏼 AI Chatbots Can Guess Your Personal Information From What You Type
Wired, 17/10/2023
Selon des études de l'ETH Zurich, les grands modèles de langage comme ChatGPT peuvent inférer des informations personnelles telles que votre origine, votre localisation, votre emploi et votre niveau social et d’éducation avec une précision de 85 à 95%. Martin Vechev, qui a dirigé la recherche, qualifie cette capacité d'inférence de "très problématique". Il souligne que ces modèles pourraient être exploités pour collecter des données sensibles ou pour un ciblage publicitaire d’une grande précision. Florian Tramèr, également de l'ETH Zurich, ajoute que cette capacité pourrait aussi être un outil puissant pour extraire des informations privées à grande échelle comme l’orientation sexuelle et les opinions religieuse ou politique.
Ces découvertes posent plusieurs questions clés. Premièrement, comment peut-on garantir la confidentialité des utilisateurs face à ces risques d'inférence ? Deuxièmement, quelles sont les implications éthiques, notamment en ce qui concerne le ciblage publicitaire ? Enfin, existe-t-il des solutions techniques pour limiter ces capacités d'inférence ?
🧶 How Copycat Sites Use AI to Plagiarize News Articles
Newsweek, 17/10/2023
Newsweek dévoile découvre (vraiment ?) l’utilisation croissante de l'intelligence artificielle pour plagier des articles de médias reconnus. Une enquête de NewsGuard a identifié 37 sites Web qui utilisent des chatbots pour réécrire des articles à partir de sources fiables comme CNN et Reuters. Ces sites opèrent souvent sans supervision humaine et génèrent des revenus via des publicités programmatiques de grandes marques, ce qui pose des questions sur le financement involontaire de ces pratiques par des annonceurs - ce qui n’est pas tellement nouveau avec l’arnaque le système de la pub programmatique.
Bien que des chatbots comme Bard et ChatGPT aient des politiques interdisant le plagiat, ces règles sont facilement et fréquemment contournées. L'inefficacité des outils de détection de plagiat actuels est également soulignée : ils échouent à repérer ce type de contenu dans 79% des cas - ne payez jamais pour un outil qui vous promet de faire la différence entre un texte IA et un texte 100% bio : votre bon sens est gratuit et plus efficace .
L'article mentionne aussi que certains sites légitimes et connus ont publié des articles contenant des erreurs générées par l'IA, ces erreurs pouvant être reprises ensuite sur de nombreux sites, suggérant que le problème pourrait être plus vaste qu'estimé - ce qui n’est pas un problème spécifique à l’IA, cela arrive aussi quand des humains reprennent, par exemple, des dépêches d’agence contenant des bizarreries… sans se poser de questions ou même relire. Pour finir, l'article appelle à une réglementation plus stricte de l'IA dans le journalisme et à une responsabilité accrue des marques et des plateformes publicitaires pour éviter de financer ces activités éthiquement problématiques - continuons de rêver.
🧑🏻🎤 A new YouTube tool will use AI to let you sound like your favorite artist
ZDnet, 20/10/2023
YouTube développe un outil d'intelligence artificielle qui va permettre aux créateurs de contenu de reproduire les voix de chanteuses et chanteurs connus. Pour ce faire, la plateforme a entamé des négociations avec les grandes maisons de disques comme Sony, Universal et Warner. L'outil que YouTube prévoit de créer serait une version autorisée des programmes existants qui peuvent imiter des voix, aussi appelés "deepfakes vocaux". Les artistes et les maisons de disques auront la possibilité de choisir s'ils veulent ou non faire partie de ce programme. Toutefois, pour le moment, aucun accord formel n'a été conclu avec eux.
Ce développement soulève des questions complexes relatives aux droits d'auteur, à l'éthique et à la monétisation. Les artistes eux-mêmes sont prudents, craignant que leur voix ne soit utilisée de manière inappropriée. De plus, la question du partage des revenus entre les artistes, les créateurs et YouTube reste ouverte.
YouTube n'est pas seul sur ce terrain ; des plateformes comme Meta et TikTok expérimentent également avec l'IA et la voix. Néanmoins, YouTube tente de prendre les devants en établissant des "principes de musique IA" pour équilibrer la protection des artistes et l'expression créative. Ce mouvement s'inscrit dans une tendance plus large d'adoption de l'IA par YouTube et pourrait établir un précédent pour toute l'industrie musicale.
🧠 L’article qui fait réfléchir - et qu’il faut absolument lire
Language, common sense, and the Winograd schema challenge
Tu vis sans jamais voir un cheval, un hibou
Cet article, écrit par Jacob Browning et Yann LeCun (himself), remet en question la validité du Winograd Schema Challenge comme moyen d'évaluer le raisonnement du sens commun dans les modèles de langage. Introduit en 2012, ce test a été conçu pour mesurer la capacité des machines à désambiguïser des phrases en langage naturel. Cependant, en 2023, les modèles de langage avancés réussissent ce test sans pour autant faire preuve de véritable intelligence ni d’un quelconque sens commun - loin de là.
Pour contextualiser cette remise en question, les auteurs explorent "l'effet IA", où une tâche est considérée comme nécessitant de l'intelligence jusqu'à ce qu'une machine réussisse à la faire. À ce moment, la tâche perd son statut d'indicateur d'intelligence. Cette observation montre que les critères d'évaluation de l'intelligence artificielle sont en constante évolution - et ceux de l’intelligence animale et humaine toujours pas réellement bien définis.
La notion de "vision propositionnelle" de la connaissance sémantique est un concept clé discuté ici. Selon cette perspective, toute connaissance est structurée comme des propositions dans une "langue de la pensée". Imaginons cette "langue de la pensée" comme un langage de programmation universel pour l'esprit, où chaque élément de connaissance est codé comme une instruction ou une déclaration. Cette vision a été particulièrement influente dans le domaine de l’IA symbolique, où l'on tente de modéliser le raisonnement humain en utilisant des symboles et des règles logiques. Dans ce contexte, la résolution de problèmes complexes est souvent abordée en décomposant la connaissance en unités propositionnelles qui peuvent être manipulées algorithmiquement.
Ici cependant, les auteurs mettent en défaut cette vision avec les approches modernes de l’IA, en particulier celles basées sur des modèles de langage entraînés sur de grands ensembles de données. Dans ces modèles, la compétence linguistique et la connaissance sémantique sont considérées comme étroitement liées et non séparables. Plutôt que de décomposer la connaissance en propositions distinctes, ces modèles apprennent à partir de l'exposition à des exemples de langage naturel, capturant ainsi des nuances et des contextes qui échappent souvent à une représentation propositionnelle. On pourrait comparer cette approche à l'apprentissage d'une langue étrangère par immersion totale, où la compréhension sémantique et la compétence linguistique se développent conjointement.
Et là des grandes questions (pour moi) surgissent :
Si la désambiguïsation linguistique n'est pas un bon test du sens commun, quels autres types de tests pourraient être plus efficaces pour évaluer l'intelligence artificielle ?
Comment pouvons-nous intégrer efficacement le raisonnement du sens commun dans les modèles de langage pour que ces modèles soient plus que de simples manipulateurs de statistiques linguistiques ?
Si les modèles de langage réussissent des tests comme le Winograd Schema Challenge sans véritable sens commun, quelles pourraient être les implications en termes de responsabilité et d'éthique, dans des domaines sensibles comme la santé, la justice ou encore l’éducation ?
Et pouvons-nous réellement utiliser ces modèles comme des modèles fondation, comme cela est en train de se passer en ce moment sous nos yeux ?
Rien que ça…
📻 Le podcast de la semaine
Monde Numérique - Aimé Lachapelle (Emerton Data) : le jumeau numérique au service de l'agriculture
Au micro de Jérôme Colombain, Aimé Lachapelle nous parle d’Agrisight, une startup incubée par Emerton Data. Il illustre le potentiel a développer des jumeaux numériques et des algorithmes d'IA dédiés à la production agricole, en particulier de sucre. Le but est de permettre une meilleure gestion des ressources, une prévision plus précise des rendements et une distribution plus efficace.
N’hésitez à me contacter si vous avez des remarques et suggestions sur cette newsletter, ou si dans votre entreprise vous cherchez à être accompagnés dans l’intégration d’outils IA et d’IA générative : olivier@255hex.ai
Partagez cette newsletter
Et si vous n’êtes pas abonné, il ne tient qu’à vous de le faire !
Bon weekend !